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本 书 采用 结构 化 方法 介绍 计算 机 系统 ; 书 的 内 容 完全 建立 在 “计算 机 是 由 层次 结构 组 成 的 ， 每 层 完 

成 规定 的 功能 ”这 一 概念 之 上 。 作 者 对 本 版 进行 了 彻底 的 更 新 ， 以 反映 当今 最 重要 的 计算 机 技术 以 及 计 

算 机 组 成 和 体系 结构 方面 的 最 新 进展 。 书 中 详细 讨论 了 数字 逻辑 层 、 微 体系 结构 层 、 指 令 系 统 层 、 操 作 
”系统 层 和 汇编 语言 层 ， 并 涵盖 了 并 行 体系 结构 的 内 容 ， 而 且 每 一 章 结尾 都 配 有 丰富 的 习题 。 
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传统 的 计算 机 组 成 与 结构 教材 一 般 只 讲述 计算 机 组 成 部 件 的 功能 实现 和 运行 原理 ， 而 缺乏 对 各 组 成 
部 件 之 间 关 系 的 描述 。 本 书 开创 性 地 用 结构 化 方法 来 描述 计算 机 组 成 ， 围 绕 “ 计 算 机 由 层次 结构 组 成 ， 
每 层 完 成 规定 的 功能 ”这 一 思想 组 织 内 容 ， 详 细 介 绍 了 数字 逻辑 层 、 微 体系 结构 层 、 指 令 系 统 层 、 操 作 
系统 层 和 汇编 语言 层 等 各 层 的 组 成 和 实现 ， 并 说 明了 低层 是 如 何 为 上 一 层 功能 的 实现 提供 支持 的 。 

在 第 6 版 中 ， 示 例 计 算 机 换 为 当前 的 主流 计算 机 系统 ， 包 括 Core i7、OMAP4430 和 ATmegal68， 
并 根据 计算 机 组 成 和 体系 结构 方面 的 最 新 进展 更 新 了 很 多 内 容 ， 使 得 本 书 能 与 时 俱 进 ， 保 持 经 典 性 和 时 新 
性 。 本 书 可 以 作为 计算 机 专业 本 科 生 学 习 计 算 机 组 成 与 结构 课程 的 教材 或 参考 书 ， 也 可 供 其 他 相关 专业 人 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 入 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S.Tanenbaum, Bjarne Stroustrup, 
Brain W.Kernighan, Dennis Ritchie, Jim Gray, Afred V.Aho, John E.Hopcroft, Jeffrey D.Ullman, 
Abraham Silberschatz, William Stallings, Donald E.Knuth, John L.Hennessy, Larry L.Peterson 
等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 
大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 里 力 圳 助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算机 科学 丛书 ”已 经 出 版 了 近 两 
百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010) 88379604 aa = 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 

邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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2013 年 春节 刚 过 ， 接 到 机 械 工业 出 版 社 华章 分 社 的 电话 ， 希 望 我 们 能 继续 翻译 《 Structured 
Computer Organization 》 第 6 版 。 合 作 多 年 ， 盛 情 难 却 ， 路 路 一 番 后 ， 也 只 好 应 承 下 来 。 

第 6 版 和 第 5 版 ， 从 出 版 时 间 上 看 ， 相 差 了 差不多 8 年， 而 这 段 时 间 是 计算 机 组 成 和 系 
统 结构 领域 飞速 发 展 的 时 期 。 一 系列 新 的 概念 兴起 和 新 应 用 的 普及 ， 如 云 计 算 、 物 联网 、 移 
动 计算 等 ， 使 计算 机 应 用 更 为 广泛 地 深入 到 社会 的 各 个 方面 ， 其 至 成 为 推动 社会 发 展 的 重要 
力量 。 反 过 来 ， 这 些 新 概念 和 新 应 用 ， 也 对 计算 机 组 成 和 结构 提出 了 新 的 要 求 ， 引 导 着 计算 
机 组 成 和 结构 发 展 方向 。 

在 此 背景 下 ,《Structured Computer Organization 》 第 6 版 在 保持 原 有 的 基本 结构 和 主要 内 
容 时 ， 高 度 关注 计算 机 组 成 和 结构 领域 的 发 展 趋势 ， 特 别 注 意 将 计算 机 组 成 方面 一 些 新 的 技 
术 增 加 进来 。 在 实例 的 选择 上 ，Core i7, OMAP4430 和 ATmegal68 分 别 作 为 桌面 计算 、 移 动 
计算 和 和 骨 和 人 式 计算 的 代表 ， 且 在 指令 系统 上 又 分 别 采 用 了 x86. ARM 和 AVR 指令 系统 ， 覆 
盖 了 当前 流行 计算 模式 的 主要 内 容 ， 体 现 了 作者 选材 的 独具匠心 。 而 GPU、FLASH、FPGA 
和 并 行 技术 等 的 引入 ， 也 使 教材 内 容 与 时 俱 进 ， 让 读者 能 在 掌握 计算 机 组 成 的 基本 原理 的 同 
时 ， 领 略 到 该 领域 内 一 些 新 的 发 展 方向 和 趋势 。 

本 书 一 直 保 持 了 从 层次 化 角度 描述 计算 机 硬 软 件 系统 完整 体系 体系 结构 的 特点 。 在 计算 
机 专业 教育 中 强调 系统 能 力 培养 这 一 观点 ， 也 逐步 得 到 我 国教 育 界 的 重视 。 可 以 说 ， 这 本 书 
是 进行 计算 机 系统 能 力 培养 的 一 本 好 教材 。 

本 版 前 言 和 第 1 ~ 4 章 由 刘卫东 翻译 , 第 5 ~ 8 章 、 附 录 A、 附 录 B、 附 录 C 及 索引 由 
宋佳 兴 翻 译 。 清 华 大 学 计算 机 科学 与 技术 系 王 诚 教授 审阅 了 全 书 。 

虽然 我 们 特别 注意 改正 了 第 5 版 译文 中 我 们 自己 发 现 的 和 一 些 读者 指出 的 翻译 错误 ， 也 
尽 我 们 的 能 力 纠正 了 第 6 版 (英文 版 ) 本 身 的 一 些小 的 红 漏 ， 但 限于 译 者 水 平 ， 译 文中 肯定 
还 会 有 错误 和 不 当 之 处 ， 依 然 敬 请 读者 不 吝 赐 教 。 


刘卫东 RES 
2014 年 4 月 14 日 
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本 书 的 前 5 个 版 本 都 是 建立 在 计算 机 由 层次 结构 组 成 、 每 层 完成 规定 的 功能 这 一 思想 
上 的 。 今 天， 这 一 基本 思想 依旧 和 第 版 刚 出 版 时 一 样 正确 ， 它 依然 是 第 6 版 的 基础 。 和 
前 5 版 一 样 ， 我 们 将 详细 讨论 数字 逮 辑 层 、 微 体系 结构 层 、 指 令 系 统 层 、 操 作 系 统 层 和 汇 
编 语言 层 。 

尽管 保留 了 基本 的 结构 ， 但 第 6 版 还 是 包含 了 或 大 或 小 的 许多 变动 ， 以 跟 上 飞速 更 新 的 
计算 机 产业 的 步伐 。 例 如 ， 本 版 的 示例 计算 机 均 已 改 成 当前 的 主流 计算 机 系统 ， 即 Intel 公司 
的 Core i7、 德 州 仪器 的 OMAP4430 和 Atmel 的 ATmegal168。 其 中 ，Core i7 是 广泛 应 用 于 笔 
记 本 、 台 式 机 和 服务 器 的 CPU, Mi OMAP4430 是 一 款 基 于 ARM 的 主流 CPU， 被 很 多 智能 手 
机 和 平板 电脑 采用 。 

许多 人 可 能 从 未 听 说 过 ATmegal 68 微 控制 器 ,但 也 许 每 天 都 会 和 它 打 交道 。 由 于 极其 
低廉 的 成 本 〔 几 美 分 )、 高 附加 值 的 软件 和 外 部 设备 ， 以 及 数量 众多 的 程序 员 ， 基 于 AVR 的 
ATmegal168 广泛 用 于 从 定时 收音 机 到 微波 炉 的 许多 散 入 式 系 统 中 ， 世界 上 ATmegal168 的 数量 
要 比 Pentium 以 及 Core i3、i5 和 i7 CPU 多 出 许多 个 数量 级 。 同 时 ，ATmegal168 也 是 Arduino 
单 片 嵌 人 式 系 统 中 使 用 的 处 理 器 ，Arduino 是 一 个 基于 开源 代码 的 软 硬 件 平台 ， 最 初 由 意大利 
一 所 大 学 设计 ， 价 格 低廉 ， 比 在 比萨 店 吃 顿 晚饭 还 便宜 。 

近年 来 ， 许 多 讲授 本 课程 的 教授 多 次 询问 关于 汇编 语言 程序 设计 的 内 容 ， 第 6 版 把 这 些 
材料 放 在 了 本 书 的 网 站 中 (地址 见 后 )， 这 样 做 可 以 方便 更 新 这 些 材料 ， 以 保持 它们 的 时 新 
性 。 我 们 选择 的 是 8088 汇编 语言 ， 主 要 原因 在 于 它 是 当前 流行 的 Core i7 处 理 器 使 用 的 1A32 
指令 集 的 先前 版 本 ， 我 们 当然 也 可 以 选择 ARM 或 者 AVR 指令 集 ， 甚 至 其 他 没 人 听 说 过 的 指 
令 系 统 作 为 例子 ， 但 作为 目的 性 很 强 的 教学 工具 ， 由 于 大 多 数 同学 家 里 都 有 一 台 兼 容 8088 的 
计算 机 ，8088 显然 是 一 个 更 好 的 选择 。Core i7 的 全 集 太 复杂 ， 不 适宜 让 学 生 了 解 全 部 细节 ， 
8088 则 要 简单 得 多 。 

另外 ， 本 版 使 用 Core i7 作为 例子 ， 讲 解 了 不 少 该 CPU 的 细节 ，Core i7 本 身 就 能 运行 
8088 汇编 语言 程序 。 尽 管 如 此 ， 调 试 汇编 语言 代码 依然 比较 困难 ， 我 们 提供 了 一 系列 工具 
来 帮助 大 家 学 习 汇 编 语言 编程 ， 包 括 8088 的 汇编 器 、 模 拟 程序 和 跟踪 程序 。 这 些 工 具 可 在 
Windows, Unix 和 Linux 环境 下 运行 ， 都 可 在 本 书 的 网 站 上 下 载 。 

这 些 年 来 ， 本 书 也 变 得 越 来 越 厚 (第 1 版 有 443 页 ， 而 本 版 有 769 页 s )。 由 于 学 科 本 身 
的 发 展 和 对 它 的 了 解 的 加 深 ， 这 也 是 不 可 避免 的 。 因 此 ， 当 用 作 教 材 时 ， 可 能 就 无 法 在 一 门 
课 (一 个 学 期 ) 中 讲述 完 所 有 内 容 。 一 种 可 行 的 方法 是 讲述 第 1、 第 2 和 第 3 章 的 全 部 内 容 ， 
第 4 章 的 前 4 节 ， 以 及 第 5 章 的 少量 内 容 。 其 余 的 时 间 可 根据 教师 和 学 生 的 兴趣 介绍 第 4 章 
剩余 部 分 和 第 6、 第 7、 第 8 章 的 部 分 内 容 。 

下 面 逐 章 介绍 一 下 各 章 纲要 及 对 第 5 版 的 主要 改动 。 第 1 章 依然 是 对 计算 机 体系 结构 
发 展 的 历史 回顾 ， 指 出 我 们 是 如 何 走 过 来 的 ， 目 前 的 位 置 和 发 展 道路 上 的 主要 里 程 碑 。 当 
了 解 到 20 世纪 60 年 代 世 界 上 最 强大 的 计算 机 的 成 本 高 达 数 百 万 美元 ， 而 计算 能 力 还 不 及 


O 这 里 的 页 数 均 指 原版 书 。 一 一 译 者 注 


VI 


现在 智能 手机 的 1% 时 ， 许 多 同学 可 能 会 十 分 惊讶 。 我 们 还 要 介绍 广义 上 的 计算 机 系列 ， 包 
括 FPGA、 智 能 手机 、 平 板 电脑 和 游戏 控制 器 。 当 然 ， 本 版 新 的 3 种 示例 处 理 器 (Core i7, 
OMAP4430 和 ATmegal68 ) 的 体系 结构 也 在 本 章 中 有 简单 说 明 。 

第 2 章 在 处 理 方 式 方面 ， 增 加 了 数据 并 行 处 理 器 也 就 是 图 形 处 理 絮 (Graphics Processing 
Unit, GPU) 的 相关 材料 。 存 储 技术 领域 引入 了 当前 正 趋 于 流行 的 基于 Flash 的 存储 设备 。 而 
2.4 节 中 ， 加 入 了 对 现代 游戏 控制 器 (如 Wiimote, Kinect) 和 智能 手机 、 平 板 电脑 上 使 用 的 
触摸 屏 等 的 介绍 。 

第 3 章 的 许多 地 方 都 进行 了 修改 。 该 章 依然 从 晶体 管 开始 论述 ， 这 样 做 的 好 处 是 没有 任 
何 硬件 基础 的 同学 也 能 理解 现代 计算 机 的 运行 原理 。 新 增加 的 内 容 主要 是 现场 可 编程 门 阵 列 
( Field-Programmable Gate Array, FPGA ) 的 相关 内 容 ， 现 场 可 编程 芯片 价格 降低 到 可 以 在 教 
学 中 广泛 使 用 ， 使 得 真正 的 大 规模 门 级 设计 可 以 引入 课堂 。 对 用 作 示 例 的 三 种 新 的 处 理 器 体 
系 结构 做 了 芯片 级 的 介绍 。 

第 4 章 讲解 计算 机 是 如 何 运行 的 。 这 章 一 直 就 颇 受 好 评 ， 因 此 从 第 5 版 开始 就 没 做 大 的 
改变 。 当 然 ， 用 作 示 例 的 Core i7, OMAP4430 和 ATmegal 68 的 微 体系 结构 层 的 内 容 是 新 的 。 

第 5、6 章 仅 就 新 的 示例 体系 结构 所 涉及 的 部 分 做 了 改写 ， 尤 其 是 增加 了 对 ARM 和 AVR 
指令 系统 的 描述 。 第 6 章 用 Windows 7 取代 Windows XP 作为 例子 。 

第 7 章 的 内 容 是 关于 汇编 语言 编程 的 ， 和 前 一 版 比 基 本 没有 变化 。 

第 8 章 做 了 许多 修改 ， 以 反映 在 并 行 计 算 机 领域 各 方面 的 新 的 研究 动向 。 增 加 了 Core 
i7 多 处 理 器 体系 结构 的 一 些 新 的 特征 ， 并 详细 介绍 了 NVIDIA Fremi 的 通用 GPU 体系 结构 。 
最 后 ， 对 BlueGene 和 Red Storm 超级 计算 机 的 内 容 进 行 了 更 新 ， 以 跟 上 这 些 巨型 机 最 近 的 
升级 。 

参考 文献 也 做 了 修改 。 将 推荐 读物 放 在 了 网 站 上 ， 因 此 ， 这 一 版 中 引出 的 仅仅 是 本 书 引 
用 过 的 参考 文献 ， 许 多 都 是 全 新 的 。 计 算 机 组 成 是 一 个 快速 发 展 的 领域 。 

附录 A 和 附录 B 从 上 一 版 本 开始 就 没有 修改 ， 这 些 年 以 来 ， 二 进 制 数 和 浮 点 数 的 表示 没 
有 什么 变化 。 附 录 C 是 关于 汇编 语言 程序 设计 的 ， 由 阿姆斯特丹 Vrije 大 学 的 Evert Wattel 博 
ERS, Watte 博士 拥有 多 年 使 用 这 些 工具 进行 教学 的 经 验 。 我 们 十 分 感谢 他 写 的 这 个 附录 ， 
主要 内 容 没 有 做 调整 ， 但 将 工具 放 到 了 网 站 上 。 

除 汇编 语言 的 工具 之 外 ， 本 书 网 站 还 包含 一 个 配合 第 4 章 使 用 的 图 形 模拟 器 。 它 是 由 
Oberlin 学 院 的 Richard Salter 教授 编制 的 ， 可 用 于 帮助 同学 们 掌握 第 4 章 讨论 的 基本 原理 。 十 
分 感谢 Richard Salter 教授 提供 该 软件 。 

包含 这 些 工具 以 及 其 他 内 容 的 本 书 网 站 的 网 址 是 : 

http://www.pearsonhighered.com/tanenbaum 

从 网 页 上 点 击 本 书 的 链接 ， 并 从 菜单 项 中 选择 你 所 找寻 的 页 面 。 其 中 的 学 生 资 源 包 括 : 

© 汇编 器 /追踪 器 软件 。 

o 图 形 模拟 器 。 

o 推荐 读物 。 

教师 资源 包括 : 

© 课程 的 PowerPoint 幻灯 片 。 

e 每 章 习 题 的 解答 。 

教师 资源 需要 通过 密码 访问 。 使 用 本 书 作 为 教材 的 教师 可 通过 联系 当地 的 Pearson 教育 
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代表 获得 密码 。 

许多 人 读 过 本 书 的 (部 分 ) 手稿 ， 并 提出 了 有 益 的 建议 或 以 其 他 方式 对 本 书 提供 了 帮 
助 。 我 们 要 特别 感谢 Anna Austin, Mark Austin, Livio Bertacco, Valeria Bertacco 、Debapriya 
Chatterjee, Jason Clemons, Andrew DeOrio, Joseph Greathouse 和 Andrea Pellegrini. 

下 列 人 士 审 阅 了 手稿 并 提出 了 修改 意见 : Jason D. Bakos ( University of South Carolina ), 
Bob Brown ( Southern Polytechnic State University )、Andrew Chen ( Minnesota State University, 
Moorhead ), J. Archer Harris (James Madison University ), Susan Krucke ( James Madison 
University ), A. Yauvz Oruc ( University of Maryland ), France Marsh ( Jamestown Community 
College ) 和 Kris Schindler ( University at Buffalo )。 十 分 感谢 他 们 。 

还 有 几 位 帮助 我 们 提供 了 新 的 习题 。 他 们 是 : Byron A. Jeff ( Clayton University ) Laura W. 
McFall ( Depaul University )、Taghi M. Mostafavi ( University of North Carolina at Charlotte ) 和 
James Nystrom ( Ferri State University )。 我 们 再 次 感谢 他 们 的 帮助 。 

我 们 的 编辑 Tracy Johnson 给 了 我 们 全 方位 的 帮助 ， 十 分 感谢 他 的 耐心 。Carole Snyder 在 
协调 参与 本 书写 作 工 作 的 各 类 人 士 方面 提供 了 十 分 专业 的 帮助 。Bob Englehardt 对 本 书 的 最 后 
出 品 做 了 很 好 的 贡献 。 
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Structured Computer Organization, Sixth Edition 
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数字 计算 机 是 通过 执行 人 们 给 出 的 指令 来 完成 工作 的 机 器 。 描 述 如 何 完 成 一 个 确定 任务 
的 指令 序列 称 为 程序 ( program )。 每 台 计 算 机 的 电路 都 只 能 识别 和 直接 执行 有 限 的 简单 指令 ， 
所 有 程序 都 必须 在 执行 前 转换 成 这 些 指令 。 这 些 基 本 的 指令 几乎 都 不 会 比 下 面 的 指令 复杂 : 

两 个 数 相 加 。 

检查 某 数 是 否 为 零 。 

将 一 些 数 据 从 计算 机 内 存 的 某 些 单元 复制 到 另外 的 单元 中 。 

计算 机 的 这 些 原始 指令 共同 组 成 了 一 种 可 供 人 和 计算 机 进行 交流 的 语言 ， 我 们 称 其 为 机 
器 语言 (machine language )。 设 计 一 种 新 的 计算 机 时 ， 人 们 必须 首先 决定 它 的 机 器 语言 中 包含 
哪些 指令 。 通 常 ， 原 始 指令 应 尽量 简单 ， 兼 顾 考虑 计算 机 的 使 用 要 求 和 性 能 要 求 ， 以 降低 实 
现 电 路 的 成 本 和 复杂 度 。 正 因为 大 多 数 机 器 语言 如 此 简单 ， 使 用 起 来 才 显 得 十 分 困难 和 乏味 。 

通过 对 计算 机 的 这 些 简单 描述 ， 我 们 可 将 计算 机 结构 化 为 一 系列 抽象 机 ， 每 台 抽 和 象 机 
都 建立 在 其 下 层 抽 象 机 的 基础 上 。 这 样 ， 计 算 机 的 复杂 性 就 在 可 控 范围 内 ,计算 机 系统 的 设 
计 也 可 在 有 组 织 和 系统 的 状态 下 进行 。 我 们 把 这 种 方法 称 为 结构 化 计算 机 组 成 ( structured 
computer organization )， 并 以 此 命名 本 书 。 下 一 节 我 们 将 解释 它 的 含义 ， 然 后 回顾 一 下 计算 机 
发 展 历史 和 这 当中 一 些 有 影响 的 机 型 。 


1.1 结构 化 计算 机 组 成 


正如 前 面 提 到 的 ， 在 方便 人 们 使 用 和 方便 计算 机 实现 之 间 存 在 着 巨大 的 差距 。 人 可 能 要 
做 X， 而 计算 机 只 会 做 Y。 这 就 有 问题 了 。 本 书 的 目的 就 是 解释 如 何 解决 这 个 问题 。 


1.1.1 语言 、 层 次 和 虚拟 机 


这 个 问题 可 从 两 个 途径 解决 ， 两 者 都 需要 设计 一 个 比 内 置 的 机 器 指令 更 方便 人 们 使 用 的 
新 的 指令 集合 。 这 样 ， 新 的 指令 集合 也 构成 了 一 种 语言 ， 我 们 称 为 L1， 对 应 地 把 机 器 中 内 置 
的 机 器 语言 指令 组 成 的 语言 叫 L0。 两 种 途径 的 不 同 之 处 在 于 采取 什么 办 法 让 只 能 执行 用 L0 
写 的 程序 的 计算 机 执行 用 L1 写 的 程序 。 

一 种 途径 是 在 执行 用 Ll 写 的 程序 之 前 生成 一 个 等 价 的 L0 指令 序列 来 替换 它 ， 生 成 的 程 
序 全 部 由 L0 指令 组 成 。 计 算 机 执行 等 效 的 LO 程序 来 代替 原来 的 L1 程序 ， 这 种 技术 叫做 翻 
译 (translation )。 

另 一 种 途径 是 用 LO 写 一 个 程序 ,将 L1 的 程序 作为 输入 数据 ， 按 顺序 检查 它 的 每 条 指令 ， 
然后 直接 执行 等 效 的 L0 指令 序列 计算 出 结果 。 它 不 需要 事先 生成 一 个 L0 语言 的 新 程序 。 我 
们 把 这 种 方法 称 为 解释 (interpretation )， 把 完成 这 个 过 程 的 LO 程序 称 为 解释 器 ( interpreter )。 

翻译 和 解释 其 实 是 类 似 的 。 两 种 方法 中 L1 的 指令 最 终 都 是 通过 执行 等 效 的 L0 指令 序列 
来 实现 的 。 区 别 在 于 ， 翻 译 时 整个 LI1 程序 都 先 转换 为 L0 程序 ， 然 后 L 程序 就 被 抛弃 ， 新 
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的 LO 程序 被 装 和 人 计算 机 内 存 中 执行 。 执 行 过 程 中 ,运行 的 都 是 新 生成 的 L0 程序 ， 控 制 计算 
机 的 也 是 L0 程序 。 

而 解释 时 ， 每 条 L 指令 被 检查 和 解码 之 后 将 立即 执行 ， 不 生成 翻译 后 的 程序 。 这 里 ， 
控制 计算 机 的 是 解释 器 。 对 它 来 说 ，L1 程序 仅仅 只 是 数据 。 这 两 种 方法 ， 以 及 后 来 它们 的 综 
合 ， 都 得 到 了 广泛 的 应 用 。 

比 起 理解 翻译 和 解释 这 两 个 概念 ， 想 象 存 在 一 种 假想 的 以 LI1 为 机 器 语言 的 计算 机 或 虚 
拟 机 也 许 更 简单 一 些 。 让 我 们 把 这 种 虚拟 机 定义 为 MI ( 相应 地 ， 把 原来 的 以 L0 为 机 器 语言 
的 虚拟 机 定义 为 MO )， 如 果 这 种 计算 机 可 以 以 足够 低廉 的 成 本 得 到 ， 那 就 根本 不 需要 LL0 这 
种 语言 或 者 是 执行 LO 语言 程序 的 机 器 了 。 人 们 可 以 简单 地 用 1 写 程序 并 让 计算 机 直接 执 
行 。 即 使 因为 使 用 LI 为 语言 的 虚拟 机 太 贵 或 太 复杂 而 不 能 由 电子 电路 构成 ， 大 家 还 是 可 以 写 
L1 语言 的 程序 。 这 些 程序 可 以 用 能 直接 被 现 有 计算 机 执行 的 LO 语言 程序 翻译 或 解释 。 换 句 
话说 ， 大 家 完全 可 以 像 虚拟 机 真正 存在 一 样 用 它们 的 语言 写 程序 。 

为 使 翻译 或 解释 现实 可 行 ， 两 种 语言 LO0 Al LI 的 差别 不 能 “ 太 ” 大 。 这 条 限制 经 常 意味 
F, BAA LI 比 L0 好 一 些 , 但 对 于 多 数 应 用 来 说 还 不 理想 。 这 也 许 会 导致 对 提出 LI 的 最 初 
目的 一 一 减轻 程序 员 不 得 不 用 一 种 更 适合 计算 机 的 语言 来 描述 算法 的 负担 一 一 有 些 失 望 。 然 
而 ， 不 应 该 是 绝望 。 

显然 ,解决 问题 的 办 法 是 发 明 一 种 比 L1 更 面向 人 且 少 面向 机 器 的 指令 集 来 取代 它 ， 这 
个 指令 集 形 成 的 语言 ， 我 们 可 以 称 为 L2 ( 对 应 的 虚拟 机 称 为 M2 )。 人 们 可 以 像 用 L2 作为 机 
器 语言 的 虚拟 机 真正 存在 一 样 用 工 2 写 程 序 ， 然 后 翻译 成 L1 或 用 Ll 写成 的 解释 器 来 执行 。 

这 种 发 明 一 系列 语言 ， 每 种 都 比 前 一 种 更 方便 人 们 使 用 的 步 又 可 以 无 限制 地 继续 下 去 ， 
直到 最 后 找到 一 种 合适 的 语言 。 每 种 语言 都 以 前 一 种 为 基础 ， 我 们 可 以 把 使 用 这 种 技术 的 计 
算 机 看 成 一 系列 层 (layer RF level), WK 1-1 所 示 ， 一 层 在 另 一 层 之 上 。 最 底部 的 语言 或 
层 最 简单 ， 而 最 上 面 的 语言 或 层 最 复杂 。 
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语言 与 虚拟 机 之 间 存 在 着 重要 的 对 应 关系 。 每 种 机 器 都 有 由 它 能 执行 的 指令 组 成 的 机 器 
语言 ， 也 就 是 说 ， 机 器 定义 了 语言 。 类 似 地 ， 语 言 也 定义 了 机 器 一 一 即 机 器 要 能 执行 用 这 种 
语言 写 的 所 有 程序 。 当 然 ， 由 某 种 语言 定义 的 机 器 真正 用 电子 电路 实现 的 话 可 能 会 十 分 复杂 
和 昂贵 ， 但 我 们 依然 可 以 想象 它 的 存在 。 以 C、C++ 或 Java 语言 作为 机 器 语言 的 机 器 确实 会 
很 复杂 ， 但 用 今天 的 技术 实现 起 来 也 不 会 很 难 。 可 是 我 们 有 充分 的 理由 不 建造 这 么 一 台 机 器 : 
与 其 他 技术 比 起 来 ， 它 的 成 本 太 高 。 真 正 实用 的 设计 应 该 同时 具有 成 本 上 的 优势 ， 仅 仅 具 有 
理论 上 的 可 行 性 是 不 够 的 。 

RELEY, A n 层 的 计算 机 可 看 成 n 台 不 同 的 虚拟 机 ， 每 一 台 的 机 器 语言 都 不 相同 。 
我 们 将 交替 使 用 术语 “ 层 ” 和 “虚拟 机 ”表示 同样 的 意思 。 值 得 注意 的 是 ， 就 像 计 算 机 学 科 
中 许多 其 他 术语 一 样 ,“ 虚 拟 机 ”还 有 其 他 的 含义 ， 我 们 将 在 本 书 的 后 续 章 节 中 介绍 。 只 有 用 
LO 语言 写 的 程序 可 以 被 电子 电路 直接 执行 ,无 须 进 行 中 间 翻 译 或 解释 。 用 LI1、L2、…、Lm 
写 的 程序 必须 经 低层 解释 器 解释 或 翻译 成 对 应 于 低层 的 男 一 种 语言 。 

为 n 层 虚拟 机 写 程序 的 程序 员 不 必 关 心 下 层 的 翻译 器 或 解释 器 ， 程 序 由 计算 机 的 结构 来 
保证 正确 执行 ， 而 不 必 管 它 是 不 是 由 解释 器 一 步 步 地 执行 后 交 给 下 一 个 解释 器 或 电子 电路 直 
接 执行 。 对 于 这 两 种 情况 ， 结 果 都 一 样 : 程序 被 执行 了 。 

多 数 使 用 nn 层 计算 机 的 程序 员 只 对 顶层 感 兴趣 ， 这 一 层 与 底层 的 机 器 语言 差别 最 大 。 然 
而 ， 那 些 想 了 解 计算 机 到 底 是 如 何 工作 的 人 就 必须 研究 所 有 的 层 ， 而 那些 设计 新 计算 机 或 新 
层 的 人 也 必须 熟悉 顶层 之 外 的 其 他 层 。 将 计算 机 分 为 一 系列 层 的 概念 和 技术 以 及 这 些 层 的 组 
成 细节 构成 了 本 书 的 主题 。 


1.1.2 现代 多 层次 计算 机 


多 数 计算 机 包含 两 层 或 更 多 层 。 甚 至 有 多 至 6 层 的 计算 机 存在 ， 如 图 1-2 所 示 。 位 于 底 
部 的 第 0 层 是 机 器 真正 的 硬件 ， 它 的 电路 
执行 第 1 层 的 机 器 语言 。 为 保证 完整 性 ， 第 5 层 
我 们 还 应 该 提 到 第 0 层 下 面 的 一 层 一 一 设 
备 层 ( device level )， 因 为 属于 电子 工程 领 
域 (不 属于 本 书 范围 ) 而 没有 在 图 1-2 中 夯 
出 。 在 这 一 层 ， 设 计 者 见 到 的 是 单个 的 晶 
体 管 ， 这 些 对 计算 机 设计 人 员 来 说 是 最 底 ”第 3 所 
层 的 元 素 。 至 于 里 面 的 晶体 管 是 如 何 工作 
的 ， 则 是 固体 物理 研究 的 课题 。 

在 我 们 要 研究 的 最 底层 数字 逻辑 zoe 
层 (digital logic level )， 我 们 感 兴趣 的 对 象 
是 门 (gate )。 虽 然 它 们 由 类 似 的 元 件 (如 
晶体 管 ) 构成 ,但 门 可 以 作为 数字 设备 的 ”第 ! 层 
精确 原型 。 每 个 门 可 以 有 一 个 或 多 个 数字 
输入 端 ( 由 0 或 1 表示 的 信号 )， 可 计算 
并 输出 这 些 输 入 的 一 些 简单 逻辑 函数 ( 如 ”第 0 层 
与 和 或 ) 的 结果 。 门 最 多 由 几 个 晶体 管 构 ”图 1-2 6 层 计算 机 。 每 层 的 支持 方法 在 其 下 部 
成 ， 几 个 门 可 组 成 1 位 存储 器 ， 存 放 一 个 0 标明 (包括 支持 程序 的 名 称 ) 


面向 问题 的 语言 层 









翻译 《编译 器 ) 






第 4 层 








翻译 (汇编 器 ) 


部 分 解释 (操作 系统 ) 





解释 〈 微 程序 ) 或 直接 执行 


微 体系 结构 层 






4 RLF 





或 1。1 位 存储 器 可 组 合成 (例如 ) 16、32， 或 64 一 组 ， 形 成 寄存 器 。 每 个 寡 存 器 (register ) 
可 存放 一 个 不 大 于 某 个 最 大 值 的 二 进 制 数 。 门 本 身 也 可 组 成 主要 的 计算 部 件 。 我 们 将 在 第 3 
章 详细 讨论 数字 逻辑 层 和 门 。 

上 面 一 层 是 微 体系 结构 层 。 在 这 层 我 们 可 以 看 到 (一般) 由 8 ~ 32 个 寄存 器 组 成 的 寄存 
器 组 以 及 名 为 ALU (Arithmetic Logic Unit， 算 术 逻 辑 部 件 ) 的 电路 ，ALU 可 以 完成 一 些 简单 
的 算术 运算 。 这 些 寄 存 器 和 ALU 相连 形成 数据 通路 (data path )， 供 数据 在 其 中 流动 。 数 据 
通路 的 基本 功能 是 选择 一 个 或 两 个 寄存 器 作为 ALU 的 操作 数 ( 例如 ， 将 它们 相 加 )， 然 后 将 
结果 存 回 某 个 寄存 器 。 

一 些 机 器 上 数据 通路 的 这 些 功能 是 由 一 个 叫做 微 程序 (microprogram ) 的 程序 控制 的 ， 
而 另外 有 些 机 器 是 直接 由 硬件 控制 的 。 本 书 的 早期 几 个 版 本 中 ,我 们 都 把 这 一 层 称 为 “ 微 程 
序 层 ”( microprogramming level )， 因 为 过 去 这 几乎 都 是 由 软件 解释 器 实现 的 。 由 于 目前 的 许 
多 机 器 经 常 ( 部 分 地 ) EE RAAR, 我 们 把 这 一 层 改名 为 “ 微 体 系 结构 层 ” 来 
反映 这 种 变化 。 

在 由 软件 控制 数据 通路 的 计算 机 上 ， 微 程序 可 看 作 是 对 第 2 层 指令 的 解释 器 。 它 通过 数据 
通路 逐条 对 指令 进行 取 指 、 检 查 和 执行 。 例 如 ， 对 ADD 指令 ， 将 首先 取出 指令 ， 对 操作 数 寻 
址 并 送 入 寄存 器 , 由 ALU 求 和 ， 最 后 把 结果 存 回 到 指定 的 地 方 。 而 在 硬件 直接 控制 数据 通路 
的 计算 机 上 ， 执 行 的 步骤 与 此 类 似 ， 但 不 存在 一 个 真正 的 存储 程序 来 控制 解释 第 2 层 的 指令 。 

第 2 层 我 们 称 为 指令 系统 层 或 JSA Æ (Instruction Set Architecture level )。 每 个 计算 机 
制造 商都 会 为 他 们 出 售 的 计算 机 出 版 一 本 手册 ， 名 为 “机 器 语言 参考 手册 ”或 “Western 
Wombat 100X 型 计算 机 的 操作 原理 ”或 其 他 类 似 的 名 字 。 实 际 上 ， 这 些 手册 都 是 关于 ISA 层 
的 ， 而 不 是 底下 的 两 层 。 它 们 说 的 机 器 的 指令 集 ， 实 际 上 是 由 微 程序 解释 或 硬件 执行 电路 直 
接 执 行 的 指令 。 若 某 个 计算 机 手册 为 一 台 计 算 机 提供 两 个 解释 器 ， 解 释 2 个 不 同 的 ISA 层 ， 
那么 ， 这 人 台 计 算 机 需要 两 本 “机 器 语言 ”参考 手册 ， 每 个 解释 器 一 本 。 

再 往 上 一 层 通常 是 一 个 混合 层 。 这 一 层 的 大 多 数 指令 和 1ISA 层 相 同 。( 也 没有 理由 规定 
某 层 的 指令 不 允许 在 其 他 层 出 现 。) 另外 ， 这 一 层 有 新 的 指令 集 ， 不 同 的 存储 器 结构 ， 有 同时 
运行 两 个 或 多 个 程序 的 能 力 ， 以 及 其 他 的 一 些 特 性 。 与 第 1 层 和 第 2 层 相 比 ， 第 3 层 在 设计 
上 存在 着 更 多 的 变化 。 

第 3 层 增 加 的 新 的 功能 是 由 运行 在 第 2 层 的 解释 器 来 执行 的 ， 历 史上 这 一 层 被 称 为 操 

[6] 作 系 统 。 那 些 和 第 2 层 指令 相同 的 第 3 层 指令 将 直接 交 给 微 程序 (或 硬件 ) 执行 ， 而 不 是 由 
操作 系统 执行 。 换 句 话说， 有 些 第 3 层 指令 由 操作 系统 解释 ， 而 有 些 由 微 程 序 (或 硬件 ) 直 
接 解 释 。 这 就 是 “混合 层 ” 的 含义 。 本 书 从 头 至 尾 把 这 一 层 称 为 操作 系统 机 器 层 (operating 
system machine level )。 

第 4 层 和 第 3 层 间 有 着 根本 的 区 别 。 最 低 的 三 层 并 不 是 为 普通 程序 员 使 用 而 设计 的 ， 而 
主要 是 为 支持 高 层 所 需 的 解释 器 或 翻译 器 的 运行 而 设计 的 ， 这 些 解释 器 和 翻译 器 是 由 专职 设 
计 和 实现 新 的 虚拟 机 的 系统 程序 员 写 的 。 第 4 层 及 以 上 各 层 才 是 供 那些 解决 应 用 问题 的 应 用 
程序 员 使 用 的 。 

第 4 层 发 生 的 其 他 变化 是 支持 上 层 的 方法 。 第 2 层 和 第 3 层 用 的 几乎 都 是 解释 ， 而 第 4、 
5 层 及 以 上 各 层 通常 (虽然 不 是 全 部 ) 用 的 是 翻译 。 

最 低 的 三 层 与 第 4、5 及 更 高 层 的 其 他 区 别 是 提供 的 语言 本 质 的 变化 。 第 1、2、3 层 提供 
的 机 器 语言 都 是 数字 串 ， 这 几 层 中 的 程序 包含 数字 的 长 序列 ， 适 合 机 器 执行 ， 而 不 容易 被 人 
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理解 。 从 第 4 层 开 始 ， 提 供 的 语言 成 了 能 帮助 人 们 理解 的 单词 和 助 忆 符 。 

第 4 层 ,汇编 语言 层 ， 实 际 上 是 某 种 低层 语言 的 符号 表示 。 本 层 为 程序 员 写 第 1、2、3 
层 程 序 提供 了 一 种 比 用 虚拟 机 语言 直接 写 这 些 程序 更 舒服 的 方法 。 用 汇编 语言 写 的 程序 首先 
被 翻译 成 第 1、2 或 3 层 的 语言 ， 然 后 由 相应 的 虚拟 机 或 硬件 解释 执行 。 完 成 翻译 过 程 的 程序 
称 为 汇编 器 ( assembler )。 

第 5 层 的 语言 通常 是 提供 给 解决 现实 问题 的 应 用 程序 员 使 用 的 。 这 些 语言 通常 称 为 高 级 
语言 (high-level language )。 目 前 存在 的 高 级 语言 有 几 百 种 ， 比 较 知 名 的 有 C、C++、Java、 
Perl, Python 和 PHP。 用 这 些 语言 写 的 程序 一 般 先 由 编译 器 (compiler) 翻译 成 第 3 层 或 第 4 
层 语 言 ， 虽 然 偶 尔 也 有 解释 执行 的 。 例 如 ， 用 Java 语言 写 的 程序 通常 先 被 翻译 成 一 种 类 似 于 
指令 系统 层 的 语言 一 一 Java 字 节 码 ， 然 后 被 解释 执行 。 

某 些 情况 下 ， 第 5 层 由 某 一 特别 应 用 领域 (例如 代数 ) 的 解释 器 组 成 ， 提 供 该 领域 专业 
人 员 熟 悉 的 运算 和 数据 以 解决 该 领域 的 问题 。 

总 的 来 说 ， 本 节 应 该 记 住 的 关键 一 点 是 将 计算 机 设计 成 一 系列 的 层 ， 每 层 建立 在 它 的 前 
一 层 之 上 ， 每 层 表 示 一 个 不 同 的 抽象 ， 由 不 同 的 对 象 和 操作 表示 。 用 这 种 方式 设计 和 分 析 计 
算 机 ， 我 们 能 暂时 忽略 一 些 无 关 紧 要 的 细节 ， 使 复杂 的 问题 更 容易 理解 。 

每 层 的 数据 类 型 、 操 作 和 特性 构成 了 该 层 的 体系 结构 。 它 解决 的 是 该 层 的 用 户 能 看 到 的 
问题 。 程 序 员 需要 了 解 的 特性 ， 如 可 用 的 内 存 有 多 大 ， 是 体系 结构 的 一 部 分 ; 而 具体 的 实现 
细节 ， 如 用 哪 种 技术 实现 这 种 内 存 ， 就 不 属于 体系 结构 的 内 容 。 计 算 机 体系 结构 是 研究 如 何 
设计 程序 员 眼 中 的 计算 机 系统 的 学 科 。 一 般 情况 下 ， 计 算 机 体系 结构 和 计算 机 组 成 的 含义 基 
本 相同 。 


1.1.3 ”多 层次 计算 机 的 演化 


为 展望 多 层 计 算 机 的 未 来 ， 我 们 首先 简单 回顾 一 下 计算 机 的 发 展 历史 ， 看 一 看 过 去 这 些 
年 中 层 数 和 各 层 的 属性 有 何 变化 。 用 真正 的 计算 机 机 器 语言 写 的 程序 (第 1 层 ) 能 直接 由 计 
算 机 的 电子 电路 (第 0 层 ) 执行 ,不 需要 经 过 任何 解释 或 翻译 。 这 些 电 路 、 存 储 器 及 输入 / 
输出 设备 一 起 ， 构 成 了 计算 机 的 硬件 。 硬 件 是 具体 的 对 象 一 一 集成 电路 、 印 制 电路 板 、 电 缆 、 
电源 、 存 储 器 和 打印 机 等 ， 而 不 是 抽象 的 概念 、 算 法 或 指令 。 

而 软件 则 正好 相反 ， 是 由 算法 (指明 如 何 做 某 事 的 详细 指令 ) 及 其 在 计算 机 中 的 表 
示 程序 组 成 。 程 序 可 存储 在 硬盘 、 软 盘 、 光 盘 或 其 他 存储 介质 上 ， 但 实质 上 ， 软件 是 组 
成 程序 的 指令 的 集合 ， 而 不 是 记录 它们 的 物理 介质 。 

早期 的 计算 机 中 ， 硬 件 和 软件 之 间 的 界限 十 分 清楚 。 然 而 ， 随 着 时 间 的 推移 ， 由 于 计 
算 机 层次 的 增加 、 减 少 和 合并 ， 界限 变 得 越 来 越 模糊 。 现 在 已 经 很 难 区 分 它们 了 (Vahid, 
2003 )。 事 实 上 ， 本 书 的 一 个 主题 就 是 : 

硬件 和 软件 在 有 逻辑 上 是 等 同 的 。 

任何 由 软件 实现 的 操作 都 可 直接 由 硬件 来 完成 ， 尤 其 是 在 操作 被 人 们 充分 认识 之 后 。 正 
如 Karen Panetta Lentz 所 说 的 :“ 硬 件 就 是 固化 的 软件 。” 当然 ， 这 话 反 过 来 说 也 同样 正确 : 
任何 由 硬件 执行 的 指令 都 可 由 软件 来 模拟 。 将 某 些 特定 的 功能 由 硬件 实现 而 另外 的 功能 由 软 
件 实现 ， 是 根据 当时 的 成 本 、 速 度 、 可 靠 性 和 预期 的 修改 频率 这 些 因 素来 决定 的 。 很 少 能 有 
确定 的 规则 规定 K 必须 由 硬件 实现 而 Y 必须 通过 编程 实现 ， 而 且 这 些 决定 也 会 随 着 计算 机 技 
术 发 展 的 趋势 和 计算 机 应 用 范围 的 变化 而 改变 。 








1. 微 程序 技术 的 出 现 

回 到 20 世纪 40 年 代 ， 最 早 的 计算 机 只 有 两 层 : 编制 所 有 程序 的 ISA 层 和 执行 这 些 程序 
的 数字 逻辑 层 。 数 字 逻 辑 层 的 电路 非常 复杂 难 懂 ， 难 以 生产 制造 ， 也 不 可 靠 。 

1951 年 ，Maurice Wilkes ( 剑桥 大 学 的 研究 员 ) 提出 设计 一 个 3 层 计 算 机 来 极 大 地 简化 
硬件 设计 ， 并 由 此 减少 〈 不 可 靠 的 ) 真空 管 的 使 用 的 主意 ( Wilkes，1951 )。 这 种 机 器 需要 内 
置 一 个 不 可 修改 的 解释 器 ( 微 程序 )， 来 解释 执行 ISA 层 的 和 程序。 这样， 硬件 就 只 需 执行 仅 有 
少数 指令 的 微 程序 ， 而 不 必 执 行 指 令 集 大 得 多 的 ISA 层 程序 ， 仅 需要 较 少 的 电路 来 实现 。 由 
于 当时 的 电子 电路 都 是 由 真空 管制 造 的 ， 这 种 简化 减少 了 真空 管 的 使 用 数量 ， 因 此 也 提高 了 
可 靠 性 〈 即 每 天 系统 崩溃 的 次 数 )。 

20 世纪 50 年 代 仅 生产 了 少量 这 种 3 层 计算 机 ，60 年 代 就 多 了 一 些 ， 到 1970 年 ， 由 微 程 
序 代替 电路 解释 ISA 层 的 计算 机 的 概念 处 于 当时 的 主导 地 位 。 所 有 那 时 的 主流 计算 机 都 使 用 
了 这 项 技术 。 

2. 操作 系统 的 出 现 

在 计算 机 的 早期 年 代 ， 大 多 数 计 算 机 都 是 “自选 商场 ”， 程 序 员 必须 自己 操纵 计算 机 。 几 
乎 每 台 计 算 机 都 有 一 个 预约 单 ， 想 上 机 运行 程序 的 程序 员 首 先 得 预约 机 时 ， 比 如 周三 的 凌晨 
3 点 ~5 点 (许多 程序 员 愿 意 在 机 房 安 静 时 上 机 )。 到 了 预约 时 间 ， 程 序 员 一 手 拿 着 一 到 80 列 
的 穿孔 卡片 (一 种 早期 的 输入 介质 )， 男 一 手 拿 着 前 好 的 铅笔 动身 前 往 机 房 ， 礼 貌 地 请 前 一 个 
程序 员 离 开 ， 然 后 接管 计算 机 。 

如 果 程 序 员 要 运行 FORTRAN 程序 ， 就 得 经 历 下面 几 个 步骤: 

1) 走向 存放 程序 库 的 柜子 ， 找 出 标 有 FORTRAN 编译 器 的 绿色 卡片 ， 放 人 读 卡 器 中 ， 
按 下 “启动 ”按钮 。 

2) 将 自己 编写 的 FORTRAN 程序 放 人 读 卡 器 ， 按 “继续 ”按钮 ， 计 算 机 读 和 程序。 

3) 计算 机 停 下 时 ， 再 次 将 他 的 FORTRAN 程序 读 一 遍 。 虽 然 有 些 编译 器 只 要 求 输入 一 
次 程序 ， 但 许多 是 要 求 读 两 遍 或 更 多 遍 的 。 每 一 遍 都 得 读 人 一 堆 卡 片 。 

4) 终于 ， 翻 译 过 程 接近 结束 了 ， 而 程序 员 的 心跳 往往 也 在 这 时 候 加 快 ， 因 为 若 编译 器 发 
现 程 序 错误 ， 他 将 不 得 不 将 错误 修改 后 再 走 一 遍 上 面 的 全 过 程 。 如 果 没 有 错误 ， 编 译 器 将 在 
卡片 上 打 孔 输出 翻译 好 的 机 器 语言 程序 。 

5) 然后 ， 程 序 员 将 卡片 上 的 机 咒语 言 程序 同 子 程序 库 卡 片 一 起 放 人 读 卡 器 ,将 它们 一 起 读 人 人。 

6) 开始 执行 程序 。 多 数 情况 下 计算 机 会 不 工作 或 在 程序 运行 中 间 死 机 。 一 般 来 说 ， 程 序 
员 会 胡乱 拨弄 控制 台 上 的 开关 或 对 着 控制 台 的 指示 灯 发 一 会 儿 呆 。 运 气 好 的 话 ， 可 能 找到 问题 ， 
修改 程序 中 的 错误 ， 然 后 从 头 再 来 一 遍 ; 运气 不 好 时 ， 只 能 将 内 存 中 的 内 容 打印 出 来 ， 即 核心 
转 储 ， 带 回 家 去 研究 。 

这 个 过 程 ， 多 年 来 在 很 多 计算 中 心中 都 十 分 相似 ， 只 *JOB,5494, BARBARA 
有 很 少 的 不 同 。 它 使 得 程序 员 不 得 不 掌握 如 何 操纵 计算 机 ， “FORTRAN 
并 要 学 会 如 何 处 置 频繁 出 现 的 计算 机 死机 现象 。 更 为 可 气 。 pogrgAN 
的 是 ， 当 人 们 抱 着 卡片 在 机 房 外 等 着 上 机 ,或 正 为 分 析 程 程序 | 
序 不 能 正常 工作 的 原因 而 挠 头 时 ， 计 算 机 却 无 法 正常 工作 。 *DATA 

到 1960 年 左右 ， 大 家 试图 通过 将 这 些 工 作 自 动 化 来 
减少 时 间 的 浪费 。 计 算 机 中 出 现 了 一 个 常 驻 程序 称 为 操作 
系统 ， 它 读 入 、 处 理 程序 员 提 供 的 程序 和 控制 卡片 并 执行 。 *END 
图 1-3 给 出 了 第 一 个 广 为 使 用 的 操作 系统 ， 即 运行 在 IBM 图 1-3 FMS 操作 系统 作业 举例 
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709 上 的 FMS ( FORTRAN 监控 系统 ，FORTRAN Monitor System ) 的 作业 。 

操作 系统 先 读 入 *JOB 卡片 ， 用 它 上 面 的 信息 进行 作业 登记 ， 供 记录 使 用 。( 星 号 用 来 标 
识 控制 卡片 ， 使 它们 不 会 与 程序 及 数据 卡片 混淆 。) 然后 ， 再 读 和 人 *FORTRAN 卡 ， 即 从 磁带 
上 加 载 FORTRAN 编译 器 的 指令 ， 加 载 完 后 ， 编 译 器 开始 读 人 并 编译 用 户 的 FORTRAN 语言 
程序 。 编 译 完 成 后 ， 再 将 控制 返回 给 操作 系统 ， 读 和 *DATA 卡 ， 按 照 卡 上 执行 翻译 好 的 程序 
的 指令 ， 以 *DATA 卡 后 的 卡片 作为 输入 数据 ， 执 行 FORTRAN 语言 程序 。 

虽然 操作 系统 是 为 自动 执行 用 户 作 业 而 设计 的 (正如 其 名 称 的 含义 )， 但 也 是 开发 新 的 虚 
拟 机 的 第 一 步 。*FORTRAN 卡 可 被 看 作 虚 拟 的 “编译 程序 ”指令 ， 同 样 地 ，*DATA 卡 可 被 认 
为 是 虚拟 的 “执行 程序 ”指令 。 只 有 两 条 指令 对 构成 一 个 新 层 来 说 少 了 点 ， 但 其 代表 的 是 发 
展 方向 。 

随后 的 几 年 中 ， 操 作 系 统 变 得 越 来 越 复 杂 。 新 的 指令 、 例 程 和 特性 不 断 地 加 入 到 ISA 层 
中 ， 直 到 出 现 一 个 新 层 。 新 层 中 的 一 些 指令 和 1ISA 层 指令 完全 相同 , 但 另外 一 些 指 令 ， 尤其 
是 输入 /输出 指令 ， 则 是 全 新 的 指令 。 这 些 新 指令 当时 被 称 为 操作 系统 宏 或 超级 用 户 调用 ， 
现在 通称 为 系统 调用 。 

其 他 方面 操作 系统 也 在 不 断 发 展 。 早 期 的 操作 系统 读 和 人 卡片， 然后 在 行 式 打印 机 上 输出 
结果 ， 这 种 方式 被 称 为 批 处 理 组 织 方式 。 它 从 提交 程序 到 结果 出 来 通常 得 等 待 几 小 时 ， 在 这 
种 环境 下 ， 开 发 程序 十 分 困难 。 

20 世纪 60 年 代 初 , Dartmouth 大 学 、MIT 和 另外 一 些 机 构 的 研究 人 员 开 发 出 允许 (多 个 ) 
程序 员 直 接 和 主机 通信 的 操作 系统 。 在 这 些 系统 中 ， 远 程 终 端 通过 电话 线 和 中 心计 算 机 相连 ， 
计算 机 由 多 个 用 户 共享 。 程 序 员 可 在 办 公 室 、 家 中 的 车 库 或 放置 终端 的 任何 地 方 输入 程序 ， 
并 立即 得 到 结果 。 这 些 系统 称 为 分 时 系统 。 

在 操作 系统 层面 ， 我 们 感 兴趣 的 是 它 如 何 解释 第 3 层 中 出 现 的 而 ISA 层 部 不 具备 的 指令 
和 特性 ， 而 不 是 分 时 机 制 。 虽 然 我 们 不 强调 ， 但 你 应 当 记 住 操 作 系统 并 不 是 仅 解释 ISA 层 之 
上 的 指令 。 

3. 微 程序 技术 的 普及 

到 1970 年 ， 微 程序 编程 已 经 很 普遍 ， 设 计 者 意识 到 他 们 可 以 通过 扩充 微 程序 来 增加 新 
的 指令 。 也 就 是 说 ， 可 以 通过 编程 来 增加 “硬件 ”( 新 的 机 器 指令 )。 这 个 发 现 导 致 机 器 语言 
指令 集 的 爆炸 式 增长 ， 因 为 设计 者 竞相 创造 出 更 大 和 更 好 的 指令 集 。 许 多 指令 并 非特 别 需 要 ， 
因为 它们 的 功能 可 以 由 已 有 指令 很 容易 地 实现 ,但 新 指令 一 般 会 比 执 行 一 系列 已 有 指令 快 一 
些 。 例 如 ， 许 多 机 器 有 向 一 个 整数 加 1 的 INC 指令 ， 由 于 这 些 机 器 上 也 有 一 条 通用 的 加 法 指 
令 ADD， 应 该 说 新 增 一 条 加 1 (或 者 加 720 也 一 样 ) 指令 是 没有 必要 的 。 不 管 怎样 ，INC 指 
令 比 ADD 快 一 点 ， 所 以 也 就 加 进来 了 。 

许多 其 他 的 指令 也 由 于 同样 的 理由 加 入 到 微 程序 中 。 通 常 包括 

1) 整数 乘 、 除 指令 。 

2) 浮 点 数 算术 指令 。 

3) 过 程 调用 和 返回 指令 。 

4) 加 速 循环 的 指令 。 

5) 处 理 字符 串 的 指令 。 

此 外 ， 一旦 计算 机 的 设计 者 认识 到 增加 一 条 指令 是 如 此 容易 ， 他 们 就 开始 四 处 寻找 可 以 
加 入 到 他 们 的 微 程序 中 的 特性 。 下 面 就 是 他 们 找到 的 一 些 : 
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1) 加 速 包含 数组 (索引 和 间接 寻 址 ) 运算 的 特性 。 

2) 允许 程序 启动 后 在 内 存 中 移动 的 特性 〈 重 置 功能 )。 

3 ) 输入 /输出 操作 完成 时 通知 计算 机 的 中 断 系统 。 

4) 在 少量 指令 中 挂 起 一 个 程序 并 启动 另外 一 个 程序 的 能 力 〈 进程 切换 )。 

5) 处 理 语 音 、 图 像 和 多 媒体 文件 的 特殊 指令 。 

这 些 年 来 ， 还 有 数 不 清 的 其 他 特性 和 功能 被 加 入 进来 ， 它 们 一 般 都 是 为 了 提高 某 一 特定 
操作 的 速度 。 

4. 微 程序 的 消失 

微 程序 在 它 的 黄金 年 代 (20 世纪 60 年 代 和 20 世纪 70 FR) 成 长 得 十 分 壮大 。 伴 随 而 
来 的 问题 是 它 也 变 得 越 来 越 慢 。 终 于 ， 一 些 研究 人 员 认 识 到 ， 通 过 取消 微 程 序 ， 大 规模 地 缩 
小 指令 集 ， 并 将 剩 下 的 指令 直接 由 硬件 执行 〈 即 用 硬件 直接 控制 数据 通路 )， 可 以 提高 计算 机 
的 速度 。 大 家 的 共识 是 ， 计 算 机 设计 的 发 展 画 了 一 个 圆圈 ， 又 回 到 Wilkes 发 明 微 程序 之 前 的 
老 地 方 了 。 

但 历史 的 车 轮 还 在 继续 转动 。 现 代 处 理 器 依然 依靠 微 程序 技术 将 复杂 的 指令 翻译 为 可 被 
简洁 的 硬件 直接 执行 的 内 部 微 码 。 

说 了 这 么 多 ， 关键 是 想 表明 计算 机 硬件 和 软件 的 界限 完全 是 人 为 划 定 的 ， 并且 经 常 变化 。 
今天 的 软件 也 许 就 是 明天 的 硬件 ， 反 过 来 也 一 样 。 甚 至 层 与 层 之 间 的 界限 也 是 模糊 的 。 从 程 
序 员 的 观点 看 ， 指 令 实 际 上 是 怎样 实现 的 并 不 重要 ( 除非 是 为 了 提高 速度 )。ISA 层 的 程序 员 
可 以 将 他 的 乘法 指令 当 作 硬 件 指令 ， 而 不 必 担 心 ， 甚 至 根本 不 用 考虑 它 是 否 真正 是 由 硬件 实 
现 的 。 一 个 人 的 硬件 是 另 一 个 人 的 软件 。 本 书后 面 还 会 经 常 重复 这 个 观点 。 


1.2 计算 机 体系 结构 的 里 程 碑 


现代 数字 计算 机 出 现 以 来 ， 人 们 已 经 设计 并 制造 出 几 百 种 不 同类 型 的 计算 机 。 绝 大 多 数 
已 经 被 人 遗忘 了 ， 但 其 中 也 有 几 种 在 计算 机 发 展 史 上 留 下 了 自己 的 印迹 。 本 节 我 们 对 关键 发 
展 历程 做 一 简单 回顾 ， 以 更 好 地 理解 我 们 是 如 何 做 的 ， 以 及 目前 所 处 的 位 置 。 自 然 ， 我 们 只 
能 触及 发 展 史上 的 亮点 ， 而 无 法 一 一 回顾 所 有 里 程 碑 。 图 1-4 列 出 了 本 节 要 讨论 的 一 些 里 程 
碑 式 的 计算 机 。 如 果 想 了 解 开创 计算 机 新 时 代 的 人 们 的 其 他 历史 材料 ， 可 以 读 Slater ( 1987 )。 
而 对 他 们 的 传记 或 对 由 Louis Fabian Bachrach 拍摄 的 漂亮 的 开创 计算 机 时 代 的 人 们 的 彩色 相 
片 感 兴趣 的 读者 可 以 读 Morgan 的 《Coffee-table》( 1997 ) 一 书 。 


1.2.1 第 零 代 一 一 机 械 计算 机 ( 1642 一 1945 ) 


建造 出 第 一 台 能 工作 的 计算 机 器 的 人 是 法 国 科 学 家 Blaise Pascal ( 1623 一 1662 )， 程 序 设 
计 语 言 Pascal 就 是 为 纪念 他 而 以 他 的 名 字 命 名 的 。 这 是 Pascal 为 他 的 父亲 ， 一 名 法 国政 府 的 
税务 官 而 设计 的 ， 于 1642 年 完成 ， 当 时 Pascal 只 有 19 岁 。 整 台 机 器 是 纯 机 械 设备 ， 使 用 齿 
轮 传动 ,用 手柄 驱动 。 

Pascal 的 机 器 只 能 做 加 法 和 减法 。30 年 后 ， 伟 大 的 德国 数学 家 Baron Gottfried Wilhelm 
von Leibniz ( 1646 一 1716 ) 制造 出 还 能 做 乘法 和 除法 的 另 一 台 机 械 计算 机 。 实 际 上 ，Leibniz 
300 年 前 制造 的 这 台 计 算 机 和 一 台 4 功能 的 袖珍 计算 器 相当 。 

从 此 后 的 150 年 计算 机 没有 大 的 发 展 ， 直到 剑桥 大 学 的 数学 教授 Charles Babbage 
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(1792 一 1871 )， 速 度 计 的 发 明 者 ， 设 计 和 制造 了 差分 机 。 这 个 机 械 设备 和 Pascal 的 只 能 做 加 
法 和 减法 的 机 器 类 似 ， 是 为 海军 导航 计算 数据 表 而 设计 的 ， 只 能 运行 一 个 算法 ， 即 用 多 项 式 
计算 有 限 差 分 。 有 趣 的 是 它 的 输出 方法 ， 是 用 钢 头 把 结果 雕刻 在 铜 面 上 ， 可 以 说 是 后 来 一 次 
性 写 的 存储 介质 ， 如 穿孔 卡片 和 CD-ROM 的 雏形 。 
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图 1-4 现代 数字 计算 机 发 展 史 上 的 里 程 碑 


虽然 差分 机 运行 得 相当 好 ， 但 Babbage 还 是 很 快 对 这 种 只 能 运行 一 个 算法 的 机 器 厌烦 了 。 
他 开始 花费 大 量 家 财 ( 更 不 必 说 17 000 镑 的 政府 投资 ) 和 时 间 来 设计 和 制造 差分 机 的 更 新 换 
代 产 品 分 析 机 。 分 析 机 由 四 部 分 组 成 : 存储 部 分 (存储 器 )、 计 算 部 分 (计算 部 件 )、 输 入 部 
分 〈 读 卡 器 ) 和 输出 部 分 ( 打 孔 输出 )。 存储 部 分 由 50 个 十 进 制 位 的 1000 个 字 组 成 ， 可 用 来 
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存放 变量 和 结果 。 计 算 部 分 从 存储 部 分 接收 操作 数 ， 然 后 进行 加 、 减 、 乘 、 除 运算 ， 最 后 将 
结果 送 回 存储 部 分 。 和 差分 机 类 似 ， 它 也 是 全 机 械 的 。 

分 析 机 的 最 大 进步 就 在 于 它 是 通用 的 。 它 从 穿孔 卡 中 读 和 指令， 然后 执行 指令 。 它 的 部 
分 指令 用 来 指示 机 器 从 存储 部 分 中 取 两 个 数 ， 将 它们 送 入 计算 部 分 ， 对 它们 进行 运算 (如 做 
加 法 运算 )， 再 将 结果 送 回 到 存储 部 分 ; 另外 一 部 分 指令 可 以 检测 一 个 数 为 正 数 还 是 负数 ， 根 
据 检 测 结果 进行 分 支 转移 。 通 过 从 输入 卡片 中 读 人 不 同 的 程序 ， 就 可 也 让 分 析 机 完成 不 同 的 
运算 ， 这 是 差分 机 做 不 到 的 。 

分 析 机 可 用 简单 的 汇编 程序 编程 ， 运 行 它 需要 软件 。Babbage 雇用 了 一 位 名 叫 Augusta 
Ada Lovelace 的 年 轻 妇 女 ， 英 国 著 名 诗人 Lord Byron 的 女儿 ， 来 编制 这 个 软件 。 这 样 ，Ada 
Lovelace 可 称 得 上 是 世界 上 第 一 个 程序 员 。 现 代 程 序 语 言 Ada 就 是 为 纪念 她 而 命名 的 。 

不 幸 的 是 ， 像 许多 现代 设计 者 一 样 ，Babbage 从 来 没有 将 硬件 的 错误 完全 解决 。 根 本 
原因 是 他 需要 成 千 上 万 个 各 种 高 精度 齿轮 ， 而 以 十 九 世 纪 的 技术 提供 不 了 这 些 零件 。 而 且 ， 
他 的 思想 远 远 地 超过 了 他 的 时 代 ， 其 至 今天 的 许多 计算 机 结构 也 与 分 析 机 类 似 ， 所 以 ， 称 
Babbage 为 现代 数字 计算 机 之 ( 祖 ) 父 应 该 是 恰当 的 。 

计算 机 发 展 史 上 的 下 一 个 进步 发 生 在 20 世纪 30 年 代 后 期 ， 一 个 学 工程 的 德国 学 生 
Konrad Zuse 用 电磁 继电器 制造 了 一 系列 自动 计算 机 。 战 争 开 始 后 ， 他 无 法 从 政府 得 到 资助 ， 
因为 政府 的 官僚 预期 战争 会 很 快 结 束 ， 新 的 机 器 在 战争 结束 后 再 进行 研究 也 不 妨 。Zuse 并 不 
知道 Baggage 的 工作 ， 而 且 他 的 机 器 也 在 1944 年 盟 军 龙 炸 柏林 时 被 损坏 ， 因 此 ， 他 的 工作 对 
后 来 的 机 器 并 没有 太 大 的 影响 。 但 我 们 仍 要 说 ， 他 是 计算 机 领域 的 先锋 之 一 。 

此 后 不 久 ， 在 美国 也 有 两 个 人 设计 出 计算 器 ， 一 个 是 爱 荷 华 州立 大 学 的 John Atanasoff 
， 另 一 位 是 贝尔 实验 室 的 George Stibbitz。Atanaso 企 的 机 器 令 人 吃惊 地 超越 了 他 的 时 代 ， 使 
用 二 进 制 算术 ， 用 电容 作 存 储 器 ， 定 时 刷新 以 保持 电容 的 电量 不 致 泄漏 ， 他 把 这 个 过 程 叫 做 
“反复 启动 存储 器 "。 与 现在 的 动态 存储 器 (DRAM ) 芯片 的 原理 完全 一 样 。 不 幸 的 是 他 的 机 
器 从 来 没有 真正 运行 起 来 。 在 这 一 点 上 ，Atanasoff 和 Babbage 类 似 ， 他 们 最 后 都 是 被 他 们 所 
处 的 时 代 的 硬件 技术 和 欠缺 而 击 垮 的 。 

Stibbitz 的 计算 机 虽然 比 起 Atanaso 企 的 更 原始 一 些 ， 但 却 能 真正 运行 。Stibbitz 于 1940 
年 在 Dartmouth 大 学 的 一 次 会 议 上 对 公众 做 了 演示 。 听 众 席 上 有 一 位 当时 还 默默 无 闻 的 宾 夕 
法 尼 亚 大 学 的 教授 John Mauchley， 后 来 成 了 计算 机 界 响当当 的 人 物 。 

当 Zuse、Stibbitz 和 Atanaso 任 设计 自动 计算 器 时 ， 哈 佛 的 一 位 名 叫 Howard Aiken 的 年 轻 
人 正 被 他 的 博士 研究 工作 中 烦琐 乏味 的 手工 计算 所 折磨 。 毕 业 后 ，Aiken 认识 到 用 机 器 做 计算 
的 重要 性 。 他 来 到 图 书馆 ， 发 现 了 Baggage 的 工作 ， 决 定 用 继电器 制造 出 Baggage 用 齿轮 没 
有 造 出 来 的 通用 计算 器 。 

Aiken 的 第 一 台 机 器 Mark I 于 1944 年 在 哈佛 完成 。 它 有 72 个 字 ， 每 个 字 有 23 个 十 进 制 
位 ， 指 令 周 期 为 6 秒 ， 用 穿孔 纸 带 进行 输入 、 输 出 。 当 Aiken 完成 它 的 后 续 机 型 Mark II 时 ， 
继电器 计算 器 过 时 了 ， 电 子 计算 器 的 时 代 开 始 了 。 


1.2.2 第 一 代 一 一 电子 管 计算 机 ( 1945 一 1955 ) 


第 二 次 世界 大 战 是 电子 计算 机 产生 的 催化 剂 。 战 争 早期 ， 德国 的 潜艇 给 英国 舰只 造成 了 
严重 破坏 。 德 国 海军 司令 的 命令 是 通过 无 线 电 从 柏林 发 往 潜艇 的 ， 英 国 可 以 事实 上 也 已 经 能 
在 中 途 将 电波 截获 。 问 题 是 这 些 消息 在 发 出 前 已 经 由 一 台 则 ENIGMA 的 设备 加 密 ， 设 备 的 
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原型 是 一 位 业余 发 明 家 、 美 国 前 总 统 Thomas Jefferson 设计 的 。 

战争 早期 ， 英 国情 报 部 门 设法 从 波兰 情报 部 门 弄 到 一 台 从 德国 偷 来 的 ENIGMA， 但 为 
了 破解 加 密 人 信息， 还 需要 大 量 的 运算 ,并且 必须 在 命令 被 截获 后 到 被 执行 前 完成 。 英 国政 
府 建 立 了 一 个 绝密 的 实验 室 ， 由 著名 的 英国 数学 家 Alan Turing 帮助 设计 ， 制造 了 一 台 称 为 
COLOSSUS 的 电子 计算 机 来 破译 截获 的 密 电 。COLOSSUS 于 1943 年 开始 运行 ， 但 由 于 英国 
政府 将 它 作 为 军事 机 密 ，30 年 来 对 这 个 项 目的 所 有 方面 都 严守 秘密 ，COLOSSUS 也 就 没 再 发 
展 ， 唯 一 值得 一 提 的 是 它 是 世界 上 第 一 台电 子 数字 计算 机 。 

战争 除了 破坏 了 Zuse 的 机 器 并 促进 了 COLOSSUS 的 制造 外 ,也 极 大 地 影响 了 美国 计算 
手段 的 更 新 。 军 方 需要 能 帮助 计算 重炮 弹道 的 计算 表 ， 这 些 计算 表 是 雇用 数 百 名 妇女 用 手工 
计算 器 制作 的 (一般 认为 妇女 比 男人 更 精确 一 些 )。 自 然 ， 制 作 过 程 十 分 耗 时 ， 还 经 常 出 现 
错误 。 

John Mauchley 既 了 解 Atanaso 任 的 工作 ， 也 了 解 Stibbitz 的 工作 ， 意 识 到 军 方 会 对 机 械 
计算 器 感 兴趣 。 和 他 之 后 的 很 多 计算 机 科学 家 一 样 ， 他 对 和 军 方 建议 提供 资金 制造 电子 计算 机 。 
建议 在 1943 年 被 采纳 后 ，Mauchley 和 他 的 研究 生 J. Presper Eckert 开始 了 研制 ENIAC ( 电 
子 数字 综合 器 和 计算 机 ，Electronic Numerical Integrator And Computer ) 的 工作 。ENIAC 由 
18 000 个 电子 管 和 1500 个 继电器 组 成 ， 重 30 吨 ， 耗 电 140 Fo RAWE, CA 20 个 十 
进 制 数 寄存 器 ， 每 个 能 存放 一 个 十 进 制 数 。( 十 进 制 寄存 器 是 一 个 很 小 的 内 存 ， 存 放 一 位 到 最 
大 位 数 的 十 进 制 数 ， 类 似 于 记录 汽车 行驶 里 程 的 里 程 表 。) ENIAC 通过 设置 分 布 各 处 的 6000 
个 多 向 开关 和 连接 森林 般 插头 及 众多 插座 来 编程 。 

直到 1946 年 ， 机 器 的 研制 工作 也 没有 结束 ， 要 达到 最 初 设计 目的 为 时 已 晚 。 尽 管 如 此 ， 
战争 结束 后 ，Mauchley 和 Eckert 还 是 被 允许 组 织 一 个 暑期 学 校 ， 向 他 们 的 科学 界 同行 们 描述 
他 们 的 工作 。 哮 期 学 校 成 了 建造 大 型 数字 计算 机 的 起 点 。 

在 这 次 历史 性 的 暑期 学 校 之 后 ， 许 多 其 他 研究 人 员 也 开始 研制 数字 计算 机 。 第 一 个 投入 
运行 的 是 EDSAC ( 1949 年 )， 由 剑桥 大 学 的 Maurice Wilkes 研制 。 其 他 的 一 些 包 括 Rand 公司 
的 JOHNNIAC, Illinois 大 学 的 ILLIAC、Los Alamos 实验 室 的 MANIAC 和 以 色 列 Weizmann 
研究 所 的 WEIZAC。 

Eckert 和 Mauchley 不 和 久 后 开始 研制 新 的 机 型 EDVAC ( 电子 离散 变量 自动 计算 机 ， 
Electronic Discrete Variable Automatic Computer )。 然 而 ， 该 项 目 最 终 还 是 因为 他 们 离开 宾 尹 法 
尼 亚 大 学 而 元 气 大 伤 。 他 们 在 费城 创建 了 Eckert-Mauchley 公司 ( 硅谷 那 时 还 不 存在 呢 )， 几 
经 变迁 之 后 ， 现 在 成 了 Unisys 公司 。 

EELE, Eckert 和 Mauchley 申请 了 他 们 发 明 数 字 计 算 机 的 专利 。 现 在 看 来 ， 拥 有 这 项 
专利 还 是 相当 不 错 的 。 经 过 几 年 的 诉讼 ， 法 庭 没 有 认定 他 们 的 专利 ， 而 认为 数字 计算 机 的 发 
明 者 是 John Atanasoff， 虽 然 他 从 未 申请 过 这 项 专利 ， 才 使 得 该 项 发 明 得 以 有 效 地 公之于众 。 

正当 Eckert 和 Mauchley 研制 EDVAC Ht, ENIAC 项 目 组 的 一 名 研究 人 员 ， 汉 … 诺 依 曼 
来 到 普林斯顿 高 级 研究 院 研制 他 自己 的 EDVAC， 即 IAS 机 。 汉 + 诺 依 曼 可 以 说 是 和 达 : 芬 
奇 同一 级 别 的 天 才 ， 他 会 讲 多 国语 言 ， 是 物理 学 家 和 数学 家 ， 对 听 到 、 看 到 和 读 到 的 东西 都 
过 有 目 不 忘 ， 甚 至 能 将 几 年 前 读 过 的 书 逐 字 地 背诵 出 来 。 在 他 对 计算 机 开始 感 兴趣 时 ， 他 已 经 
是 世界 上 杰出 的 数学 家 了 。 

研制 工作 开始 不 入， 他 就 发 现 用 大 量 的 开关 、 插 头 来 编程 十 分 费时 、 枯 燥 乏 味 而 且 极 不 
灵活 ， 提 出 程序 可 以 用 数字 形式 和 数据 一 起 在 计算 机 内 存 中 表示 。 对 ENIAC 用 10 个 电子 管 
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(1485, 9 个 不 亮 ) 表示 一 位 十 进 制 数 的 笨拙 表示 方式 ， 他 也 提出 用 Atanasoff 几 年 前 就 已 经 
使 用 的 二 进 制 数 表 示 来 替代 。 

由 他 第 一 次 描述 的 这 些 基 本 设计 ， 现 在 
被 命名 为 冯 : 诺 依 曼 机 ， 并 在 世界 上 第 一 台 存 
储 程序 的 计算 机 EDSAC 中 采用 ， 而 且 直到 半 
个 世纪 后 的 今天 ， 依 然 是 几乎 所 有 数字 计算 机 
的 基础 。 这 个 设计 ， 以 及 和 Herman Goldstine 
合作 研制 的 IAS 机 ， 有 着 巨大 的 影响 力 ， 值 
得 在 这 里 简单 描述 一 下 。 图 1-5 给 出 了 该 机 的 
体系 结构 框架 。 累加 器 

+ 诺 依 曼 机 由 五 个 基本 部 分 ， 即 存储 图 1-5 最 初 的 汉 : 诺 依 曼 机 
器 、 运 算 器 (算术 逻辑 部 件 ALU )、 控 制 器 和 
输入 、 输 出 设备 组 成 。 存 储 器 有 4096 个 字 ， 每 个 字 40 位 ， 每 位 均 为 0 或 1。 每 个 字 表 示 两 

[18] 条 20 位 的 指令 或 一 个 40 位 的 有 符号 整数 。 指 令 中 的 8 位 用 来 区 分 指令 类 型 ， 另 外 12 位 表示 
4096 个 存储 单元 中 的 一 个 地 址 。 算 术 逻 辑 部 件 和 控制 器 一 起 ， 组 成 了 计算 机 的 “大 脑 ”。 现 
代 计 算 机 中 ， 这 两 个 部 件 被 组 合 到 一 个 芯片 上 , 称 为 CPU (中央 处 理 器 )。 

在 算术 逻辑 部 件 中 有 一 个 特殊 的 40 位 内 部 寄存 器 一 累加 器 。 典 型 的 指令 将 内 存 中 的 一 
.个 字 和 累加 器 相 加 或 将 累加 器 的 内 容 存 人 内 存 中 。 该 机 不 提供 浮 点 运算 ， 因 为 冯 . 诺 依 曼 认 
为 任何 有 能 力 的 数学 家 都 能 在 头脑 中 记 住 十 进 制 〈 实 际 上 是 二 进 制 ) 小 数 点 的 位 置 。 

几乎 在 冯 “' 诺 依 曼 研制 IAS 机 的 同时 ， 麻 省 理工 的 研究 人 员 也 在 研制 他 们 的 计算 机 。 
IAS, ENIAC 及 其 他 类 似 的 机 器 字 长 都 比较 长 ， 设 计 为 应 付 繁重 的 数据 处 理 任 务 ; 而 麻 省 理 
工 设计 的 机 器 Whirlwind I 的 字 长 为 16 位 ， 为 实时 控制 设计 。 该 项 目 使 Jay Forrester 发 明了 磁 
芯 存储 器 ， 并 最 终 产生 了 第 一 台 商 用 小 型 机 。 

当 所 有 这 些 和 又 又 烈 烈 进行 的 时 候 ，IBM 还 是 一 个 热衷 于 制造 打 孔 卡 和 机 械 排 卡 机 的 小 公 
司 。 虽 然 对 Aiken 提供 了 部 分 资助 ， 但 是 直到 1953 年 制造 出 701 机 后 ，IBM 才 对 计算 机 有 了 
狂热 的 兴趣 ， 而 这 时 Eckert 和 Mauchley 的 公司 早 就 以 它 的 UNIVAC 机 成 了 商业 市 场 的 龙头 。 
701 机 有 2048 个 字 ， 每 字 36 位 ， 存 放 两 条 指令 ， 是 十 年 中 在 科学 计算 领域 内 主流 系列 机 的 
第 一 种 型 号 。 三 年 后 是 704 机 ， 有 4K 磁 芯 存储 器 ， 指 令 长 36 位 ， 硬 件 支持 浮 点 运算 。1958 
年 ，IBM 推出 了 它 的 最 后 一 个 电子 管 产品 709， 而 该 产品 基本 上 还 是 令 人 厌倦 的 704。 


1.2.3 第 二 代 晶体 管 计 算 机 ( 1955 一 1965 ) 


1948 年 ， 贝 尔 实验 室 的 John Bardeen, Walter Brattain 和 William Shockley 发 明了 晶体 管 ， 
他 们 也 因此 获得 1956 年 的 诺 贝尔 物理 奖 。10 年 中 ， 晶 体 管 为 计算 机 带 来 了 一 场 革 命 ， 到 20 
世纪 50 年 代 后 期 ， 电 子 管 计 算 机 就 已 经 过 时 了 。 第 一 台 唱 体 管 计算 机 TX-0( 晶体管 化 实验 
计算 机 0，Transistorized eXperimental computer 0 ) 由 麻 省 理工 的 林肯 实验 室 和 Whirlwind I 同 
时 研制 ， 仅 仅 是 作为 测试 比 TX-2 更 富 空想 意味 的 设备 。 
TX-2 一 共 也 没有 生产 几 台 ， 但 实验 室 的 工作 人 员 Kenneth Olsen 却 创办 了 数字 设备 公司 
( Digital Equipment Corporation，DEC )， 并 在 1957 年 制造 出 了 和 TX-0 类 似 的 商业 机 。 可 这 
种 机 器 ， 也 就 是 后 来 的 PDP-1， 直 到 4 年 后 才 在 市 场 上 出 现 ， 主 要 原因 是 投资 DEC 的 风险 资 
本 家 坚信 计算 机 不 会 有 市 场 。 毕 竟 ，IBM 的 前 总 裁 T. J. Watson 曾经 预言 过 ， 全 世界 计算 机 也 
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不 过 4、5 台 的 市 场 容 量 。 因 此 ，DEC 当时 主要 销售 小 电路 板 给 其 他 公司 ， 让 他 们 集成 到 自 
己 的 产品 中 。 

到 1961 年 PDP-1 最 终 推出 时 ， 它 配 有 4K 内 存 ， 字 长 18 位 ， 每 秒 钟 能 执行 200 000 
条 指令 ,性 能 是 IBM 7090 的 一 半 。7090 机 是 晶体 管 的 709， 是 当时 世界 上 最 快 的 计算 机 。 
PDP-1 价格 是 120 000 美元 , 但 7090 是 几 百 万 。DEC 销售 了 好 几 十 台 PDP-1, 并 从 此 形成 了 
小 型 计算 机 产业 。 

最 初 的 几 人 台 PDP-1 中 的 一 台 给 了 麻 省 理工 ， 在 那 立即 吸引 了 在 麻 省 理工 里 随处 可 见 的 几 位 
天 才 少 年 的 注意 。PDP-1 的 多 项 革新 之 一 是 它 的 可 视 化 显示 和 在 512 x 512 屏幕 上 定位 任何 一 个 
点 的 能 力 。 不 入， 这 些 学 生 就 在 PDP-1 上 编 出 了 《太空 战争 》 一 一 世界 上 第 一 个 视频 游戏 。 

几 年 后 DEC 推出 了 12 位 字 长 的 PDP-8 计 算 机 ， 比 PDP-1 便宜 了 许多 (价格 是 16 000 
美元 )。PDP-8 的 主要 革新 是 使 用 了 Omnibus 单 总 线 ， 如 图 1-6 所 示 。 总 线 是 用 来 连接 计算 机 
部 件 的 平行 导线 。 这 个 体系 结构 远离 了 以 内 存 为 中 心 的 IAS 机 ， 并 被 此 后 几乎 所 有 小 型 机 采 
用 。DEC 最 后 销售 了 50000 台 PDP-8， 建 立 起 在 小 型 机 市 场 上 的 领先 地 位 。 








Omnibus 


图 1-6 PDP-8 的 Omnibus 总 线 


此 时 ， 如 上 所 述 ，IBM 对 晶体 管 的 反应 是 研制 709 的 晶体 管 版 本 7090 和 后 来 的 7094。 
7094 的 机 器 周期 为 2ns ( 微 秒 )， 配 有 字 长 为 36 位 的 32K 字 磁 蕊 存储 器 。7090 和 7094 标志 
着 ENIAC 型 计算 机 的 结束 ， 虽然 它们 在 20 世纪 60 年 代 统治 科学 计算 领域 多 年 。 

在 IBM 以 它 的 7094 成 为 科学 计算 领域 的 主要 推动 力 的 同时 ， 它 通过 销售 几 台 面向 商业 
的 1401 机 而 赚 了 一 大 笔 钱 。 该 机 能 读 写 磁带 、 读 卡 和 打卡 ， 输 出 速度 能 和 7094 媲美 ， 价 格 
HE 7094 的 几 分 之 一 。 在 科学 计算 领域 它 表 现 糟糕 ， 但 在 商务 领域 却 十 分 出 色 。 

1401 的 与 众 不 同 在 于 它 没 有 任何 寄存 器 ， 甚 至 字 长 都 不 固定 ， 内 存 为 4000 字 节 (8 位 )， 
其 后 继 型 号 的 内 存 达 到 了 当时 颇 令 人 惊讶 的 16 000 字 节 。 每 个 字 节 包 括 一 个 6 位 的 字符 、 一 
个 管理 位 ， 还 有 一 位 用 来 标识 字 结 束 。 例 如 ， 一 条 MOVE 指令 中 有 源 地 址 和 目的 地 址 ， 然 后 
从 源 地 址 开始 往 目的 地 址 移动 内 存 的 内 容 ， 直 到 遇 到 一 个 字 节 ， 其 结束 位 为 1 时 移动 结束 。 

1964 年 ， 一 个 不 知名 的 小 公司 控制 数据 公司 (Control Data Corporation, CDC ) 推 
出 6600， 它 比 巨型 机 7094 还 快 了 将 近 一 个 量 级 ， 是 当时 速度 最 快 的 计算 机 。6600 马上 被 那 
些 数 据 处 理 公司 相 中 ，CDC 也 由 此 走 上 成 功 之 路 。 它 比 7094 快 了 许多 的 秘密 在 于 它 的 CPU 
的 高 度 并 行 ， 有 几 个 功能 部 件 做 加 法 ， 另 外 几 个 做 乘法 ， 还 有 一 个 做 除法 ， 而 且 它 们 都 能 并 
行 运行 。 昌 然 只 有 细心 编程 才能 达到 较 高 的 性 能 ， 但 理论 上 它 能 做 到 同时 执行 10 条 指令 。 

光 是 这 样 好 像 还 有 点 不 够 ，6600 内 部 还 有 几 个 小 的 计算 机 在 帮助 它 ， 就 像 白雪 公主 和 七 
个 小 矮人 一 样 。 这 样 ，CPU 可 以 全 时 处 理 数据 ， 而 把 细节 问题 如 作业 管理 和 输入 /输出 交 给 
小 计算 机 去 完成 。 现 在 看 来 ，6600 几乎 领先 时 代数 十 年 ， 现 代 计 算 机 的 许多 关键 技术 都 可 以 
直接 追溯 到 它 身 上 。 

6600 的 设计 者 Seymour Cray 有 着 和 汉 “' 诺 依 曼 一 样 的 传奇 色彩 ， 他 把 他 的 一 生 奉献 给 了 
研制 最 快 的 计算 机 ， 即 超级 计算 机 ， 如 6600、7600 和 Cray-1。 他 还 发 明了 一 个 著名 的 买 车 算 
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法 : 找 离 你 最 近 的 代理 商 ， 买 离 门 最 近 的 车 。 这 个 算法 在 不 重要 的 事情 上 ( 如 买 车 ) 浪费 的 
时 间 最 少 ， 而 使 你 能 把 最 多 的 时 间 花 在 最 重要 的 事情 上 (如 设计 超级 计算 机 )。 

这 一 时 代 还 出 现 了 很 多 其 他 计算 机 ， 还 有 一 台 由 于 特别 的 理由 值得 一 提 ， 这 就 是 
Burroughs 的 B5000。PDP-1、7094 和 6600 这 些 计算 机 的 设计 者 首先 都 是 全 神 贯 注 于 硬件 ， 
使 硬件 能 更 便宜 一 些 (DEC) 或 更 快 一 些 (IBM 和 CDC )， 软 件 完全 成 了 细 枝 末节 。B5000 
的 设计 者 采取 了 完全 不 同 的 设计 方针 ， 他 们 研制 的 计算 机 是 特别 为 了 满足 用 Algol 60 语言 
(C 语 言 和 Java 语言 的 前 驱 ) 编程 需要 的 ， 并 在 硬件 上 应 用 了 很 多 特性 来 简化 编译 器 的 任务 。 
设计 计算 机 时 同时 考虑 软件 需要 的 设计 思想 就 是 从 这 产生 的 。 不 幸 的 是 这 人 台 计 算 机 立即 就 被 
大 家 忘掉 了 。 


1.2.4 第 三 代 一 一 集成 电路 计算 机 ( 1965 一 1980 ) 


Jack Kilby 与 Robert Noyce ( 各自 独立 工作 ) 于 1958 年 发 明 的 硅 集 成 电路 使 得 在 单个 芯 
片上 可 和 集成 几 十 个 晶体 管 。 对 晶体 管 的 这 种 封装 使 研制 比 晶体 管 计算 机 更 小 、 更 快 、 更 便宜 
的 计算 机 成 为 可 能 。 本 节 介 绍 几 种 这 一 代 著 名 的 计算 机 。 

到 1964 年 ，IBM 已 占据 计算 机 公司 的 领头 位 置 ， 但 它 的 两 种 取得 巨大 成 功 也 最 赚钱 的 
计算 机 一 一 7094 和 1401， 有 了 问题 : 它们 完全 是 两 台 无 法 兼容 的 机 器 。 一 台 是 在 36 位 寄存 
器 组 基础 上 用 并 行 二 进 制 算术 实现 的 高 速 数据 处 理 机 ， 另 一 台 是 在 字 长 可 变 的 内 存 的 基础 上 
用 串 行 十 进 制 算术 实现 的 大 吞吐 量 输 入 /输出 处 理 机 。 许 多 有 两 方面 需要 的 客户 只 好 同时 拥 
有 这 两 种 型 号 的 计算 机 ， 但 很 不 情愿 拥有 两 支 毫 无 共同 之 处 的 编程 队伍 。 

当 不 得 不 改变 这 种 情形 时 ，IBM 采取 了 根本 的 变革 。 它 基于 集成 电路 推出 了 新 的 产品 ， 
即 System/360， 来 同时 满足 科学 计算 和 商务 处 理 两 方面 的 要 求 。System/360 包含 多 项 革新 ， 
最 重要 的 是 它 是 由 5、6 种 具有 相同 的 汇编 语言 但 规模 和 处 理 能 力 递增 的 系列 机 组 成 的 。 客 户 
可 以 用 360 机 的 30 型 号 来 替代 旧版 本 的 1401， 而 用 75 型 机 来 替代 7094。75 型 机 比较 大 且 
快 一 些 (也 贵 一 些 ), 但 为 其 中 一 台 写 的 软件 原则 上 可 在 男 外 一 台 上 运行 。 实 际 上 ， 为 小 型 号 

写 的 软件 运行 在 大 型 号 机 上 没有 问题 ， 但 程序 从 大 型 号 机 上 迁移 至 小 型 号 机 上 运行 则 往往 
内 存 不 够 。 但 比 起 7094 和 1041， 这 依然 是 一 个 很 大 的 提高 。 系 列 机 的 概念 很 快 就 流行 起 来 ， 
几 年 之 肉 大 多 数 计 算 机 公司 就 都 有 了 各 自 的 价格 和 性 能 各 不 相同 的 系列 机 。 图 1-7 列 出 了 开 
始 时 360 系列 机 几 种 机 型 的 特性 ， 其 他 型 号 在 以 后 介绍 。 
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Al 1-7 IBM 360 系列 机 的 初始 配置 


360 的 另 一 个 主要 进步 是 多 道 程 序 ， 内 存 中 同时 可 以 有 多 个 程序 ， 当 其 中 一 个 等 待 输入 / 
输出 时 ， 另 一 个 可 以 进行 计算 ， 这 样 ， 可 提高 CPU 的 利用 率 。 

360 还 是 第 一 人 台 可 以 仿真 (模拟 ) 其 他 计算 机 的 机 器 。 较 小 的 型 号 可 以 仿真 1401， 较 大 
的 仿真 7094， 所 以 ， 换 了 360 机 后 ， 客 户 还 可 以 不 加 修改 地 运行 原来 机 器 的 二 进 制 程序 。 有 
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些 型 号 运行 1401 的 程序 比 原 来 1401 的 运行 快 了 很 多 ， 使 许多 客户 一 直 没 有 更 新 原 有 的 程序 。 

360 上 实现 仿真 比较 容易 的 原因 在 于 开始 时 几 种 机 型 和 后 来 的 大 多 数 机 型 都 是 微 程序 的 。 
IBM 要 做 的 只 是 写 三 套 微 程序 ， 一 套用 于 360 机 本 身 的 指令 系统 ， 一 套用 于 1401 指令 系统 ， 
另外 一 套用 于 7094 的 指令 系统 。 这 种 灵活 性 也 是 在 360 中 采用 微 程序 的 理由 之 一 。Wilkes 提 
出 采用 微 程 序 的 另 一 个 动机 ， 也 就 是 减少 电子 管 的 数量 已 经 不 再 提起 ， 是 因为 360 机 中 已 经 
没有 了 电子 管 。 

360 机 用 折衷 的 办 法 解决 了 并 行 二 进 制 算术 和 串 行 十 进 制 算术 的 矛盾 : 该 机 采用 16 个 32 
位 寄存 器 用 于 二 进 制 算术 运算 ， 但 内 存 依然 是 面向 字 节 的 ， 和 1401 类 似 。 它 也 有 在 内 存 中 移 
动 可 变 长 度 的 内 容 的 这 种 典型 1401 的 串 行 指令 。 

360 的 另 一 个 主要 特性 是 寻 址 空间 特别 巨大 (在 当时 条 件 下 )， 达 到 2% (16 777 216) 
字 节 。 在 每 字 节 耗费 的 内 存 成 本 高 达 几 个 美元 的 当时 ，16M 字 节 看 起 来 就 像 是 天 文 数 字 。 不 
幸 的 是 ，360 系列 之 后 的 370 系列 、4300 系列 、3080 系列 、3090 系列 、390 系列 和 zz 系列 
都 采用 的 是 本 质 上 相同 的 体系 结构 。 到 20 世纪 80 年 代 中 期 ，16M 字 节 的 限制 就 成 了 问题 ， 
当 需 要 32 位 地 址 来 寻 址 2° 字 节 空间 时 ，IBM 不 得 不 部 分 放弃 一 定 的 兼容 性 来 将 地 址 扩充 
到 32 位 。 

从 事后 诸葛 亮 的 角度 看 ， 我 们 可 以 质疑 为 什么 字 长 和 寄存 器 都 是 32 位 ， 却 不 采用 32 位 
地 址 ， 但 要 知道 那 时 连 16M 字 节 内 存 的 机 器 都 让 人 无 法 想象 。 同 样 ， 当 IBM 成 功 切 换 到 32 
位 地 址 时 ， 它 依然 是 内 存 寻 址 的 一 个 临时 解决 方案 ， 因 为 计算 机 系统 马上 被 要 求 拥有 寻 址 2” 
(4294 967 296) 字 节 空间 的 能 力 。 几 年 后 ，64 位 地 址 的 计算 机 同样 将 面临 这 样 的 问题 。 

在 第 三 代 计 算 机 中 ， 随 着 DEC 公司 推出 16 位 的 PDP-11 系列 接替 PDP-8 系列 ， 小 型 机 
也 向 前 迈进 了 一 大 步 。 在 许多 方面 ，PDP-11 系列 像 是 360 系列 的 小 弟弟 ， 就 像 PDP-1 是 7094 
的 小 弟弟 一 样 。360 机 和 PDP-11 都 有 以 字 为 单位 的 寄存 器 和 以 字 节 为 单位 的 内 存 ， 性 能 / 价 
格 比 也 都 比较 吸引 人 。PDP-11 获得 巨大 的 成 功 ， 尤 其 是 在 大 学 里 ， 并 使 DEC 能 继续 领先 于 
其 他 的 小 型 计算 机 制造 商 。 


1.2.5 ”第 四 代 一 一 超大 规模 集成 电路 计算 机 ( 1980 FES) 


到 20 世纪 80 年 代 ， 超 大 规模 集成 电路 (Very Large Scale Integration, VLSI) 的 出 现 ， 
使 得 在 一 个 芯片 上 集成 几 万 、 几 十 万 、 甚 至 上 百 万 的 晶体 管 成 为 可 能 。 超 大 规模 集成 电路 的 
发 展 使 计算 机 更 加 小 型 化 ， 速 度 更 快 。 在 PDP-1 出 现 之 前 ,计算 机 是 如 此 庞大 和 昂贵 ， 公 
司 和 学 校 不 得 不 成 立 专门 的 部 门 一 一 计算 中 心 ， 来 运行 和 维护 它们 。 小 型 机 问世 后 ， 各 部 门 
能 拥有 自己 的 计算 机 。 到 1980 年 ， 计 算 机 的 价格 降低 到 个 人 也 能 承受 的 地 步 ， 个 人 计算 机 
(PC ) 时 代 开 始 了 。 

个 人 计算 机 的 用 途 和 大 型 计算 机 差别 很 大 ， 大 都 用 于 字 处 理 、 电 子 表格 以 及 大 型 计算 机 
处 理 不 好 的 许多 高 度 交互 的 应 用 ( 如 游戏 ) 中 。 

早期 的 个 人 计算 机 通常 按 套件 销售 。 每 套 包括 一 块 印 制 电路 板 、 一 堆 芯 片 (一 般 有 一 块 
Intel 8080 )、 一 些 电线 、 电 源 ， 可 能 还 会 有 一 片 8 英寸 的 软盘 。 将 这 些 组 件 装 成 一 台 计 算 机 是 
买方 自己 的 事 。 软 件 是 没有 的 ， 用 户 需 要 什么 就 自己 开发 什么 。 后 来 ， 由 Gray Kildall 开发 的 
CP/M 操作 系统 在 8080 上 流行 了 一 段 时 间 ， 这 是 一 个 纯粹 的 ( 软 ) 磁盘 操作 系统 ， 有 文件 系 
统 ， 能 接受 从 键盘 键 和 人 的 用 户 命令 ， 

还 有 一 种 早期 个 人 机 是 Apple 和 后 来 的 Apple I， 众 所 周知 是 Steve Jobs 和 Steve Wozniak 


[24] 
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在 车 库 里 设计 的 。 它 在 家 庭 和 学 校 用 户 中 非常 受 欢迎 ， 几 乎 一 夜 之 间 ，Apple 就 成 为 个 人 机 市 
场 中 重要 的 参与 者 。 

经 过 长 时 间 的 策划 、 观 察 其 他 公司 的 行动 ，IBM 这 个 计算 机 行业 的 巨人 ， 终 于 决定 涉 
足 个 人 计算 机 业务 。 为 了 缩短 设计 时 间 ，IBM 没有 用 从 草图 开始 设计 ， 整 台 机 器 也 没有 全 部 
FA IBM 部 件 ， 如 IBM 的 晶体 管 、IBM 的 模具 的 传统 方法 ， 而 是 非 同 常规 地 给 了 它 的 部 门 经 
理 Philip Estridge 一 大 袋子 钱 ， 让 他 远离 公司 在 纽约 Armonk 的 爱 指 手 画 脚 的 总 部 ， 去 做 出 个 
人 计算 机 。Estridge 跑 到 2000 公里 外 的 佛罗里达 的 Boca Raton 成 立 了 设计 部 门 ， 选 择 Intel 
8088 作 CPU， 全 部 采用 市 场 上 的 组 件 研制 出 IBM PC. IBM PC 在 1981 年 推出 ， 马 上 成 了 历 
史上 最 畅销 的 计算 机 。 到 PC 年 满 30 岁 时 的 2011 年 ， 出 版 了 许多 关于 PC 历史 的 文章 ， 包 括 
由 Bradley ( 2011 )、Goth (2011), Bride (2011) 和 Singh (2011) 等 编著 的 。 

IBM 还 做 了 一 件 也 许 后 来 有 些 后 悔 的 、 非 同 常规 的 事情 ， 即 没有 像 以 往 那 样 对 IBM PC _ 
的 全 部 设计 方案 保密 (或 至 少 申请 专利 权 保护 )。 它 在 一 本 只 卖 49 美元 的 书 中 公开 了 全 部 设 
HIR, 包括 所 有 的 电路 图 ， 想 让 其 他 公司 来 生产 IBM PC 的 插件 ,使 IBM PC 更 灵活 、 更 
流行 。 可 惜 的 是 ， 由 于 设计 方案 完全 公开 ， 而 生产 部 件 又 可 以 在 市 场 上 十 分 容易 地 买 到 ， 许 
多 其 他 的 公司 开始 克隆 PC， 费 用 还 常常 比 IBM 低 很 多 ， 这 造就 出 了 一 个 新 的 行业 。 

虽然 许多 其 他 公司 采用 非 Intel 的 CPU， 包 括 Commodore, Apple 和 Atari 生产 它们 的 
PC, (BÆ IBM PC 的 影响 之 下 ， 大 都 逐渐 消失 了 。 只 有 很 少 的 几 个 能 在 市 场 夹缝 中 存活 下 来 。 

Apple Macintosh 就 是 这 些 存 活 下 来 的 PC 之 一 ， 虽 然 有 些 狼 狐 。 作 为 不 走运 的 Apple Lisa 
机 的 替代 产品 ，Macintosh 于 1984 年 出 现在 市 场 中 。 而 Apple Lisa 是 第 一 台 使 用 图 形 用 户 界 
面 ( Graphical User Interface, GUI) 的 计算 机 ， 和 现在 流行 的 Windows 界面 类 似 。Lisa 在 市 
场 上 失败 的 主要 原因 是 价格 昂贵 ， 但 一 年 后 出 现 的 价格 低廉 的 Macintosh 在 市 场 上 大 获 成 功 ， 
得 到 很 多 它 的 青睐 者 的 喜欢 和 追捧 。 

早期 的 个 人 计算 机 市 场 也 引发 出 当时 没有 听 说 的 对 便携 式 计 算 机 的 兆 望 。 当 时 ， 对 便携 
式 计算 机 的 感觉 就 像 现在 对 便携 式 冰 箱 的 感觉 。 第 一 台 便 携 式 个 人 计算 机 是 Osborne-1， 重 
11 公斤 ， 尽 管 更 像 是 一 台 手 提 计 算 机 而 不 太 像 便携 机 。 但 它 依然 证 明了 便携 式 计算 机 的 可 能 
性 。Osborne-1 取得 了 一 定 的 商业 成 功 ， 但 一 年 后 ，Compaq 推出 了 它 的 第 一 台 IBM 兼容 便携 
机 ， 很 快 就 建立 了 其 在 便携 机 市 场 上 的 领先 地 位 。 

刚 开 始 时 ，IBM PC 安装 了 由 当时 还 是 一 家 小 公司 的 微软 公司 提供 的 MS-DOS 操作 系 
统 。 随 着 Intel 有 能 力 生产 出 功能 持续 增强 的 CPU，IBM 和 微软 也 开发 出 MS-DOS 的 替代 产 
品 OS/2， 它 带 有 图 形 用 户 接口 ， 和 Apple 的 Macintosh 类 似 。 此 时 ， 微 软 也 研制 出 自己 的 运 
行 在 DOS 之 上 的 Windows 操作 系统 ， 以 备 OS/2 不 被 用 户 接受 时 推出 。 长 话 短 说 ，OS/2 RA 
没有 占领 市 场 ，IBM 和 微软 公开 闹 翻 后 ， 微 软 推出 了 Windows， 取 得 巨大 的 成 功 。 小 Intel 公 
司 和 更 小 的 微软 公司 打败 世界 历史 上 最 大 、 最 富有 和 最 有 力量 的 IBM 公司 的 过 程 ， 毫 无 疑问 
是 世界 各 地 商学 院 课程 中 的 重要 细节 。 

HUE 8088 取得 的 成 功 不 放 ，Intel 继续 制造 出 它 的 新 版 本 ,一 个 比 一 个 大 而 且 好 。 尤 其 需 
要 注意 的 是 1985 年 推出 的 80386， 这 是 一 个 32 位 的 CPU, 在 其 之 后 是 一 个 功能 更 为 强大 的 
版 本 ， 也 就 是 80486。 再 后 来 的 版 本 就 以 Pentium 和 Core 命名 ， 大 多 数 现代 PC 都 采用 了 这 
些 芯 片 。 人 们 用 x86 来 称呼 这 一 系列 芯片 的 体系 结构 。 而 且 ，AMD 公司 生产 的 与 之 兼容 的 芯 
片 也 被 称 为 x86。 

到 20 世纪 80 年 代 中 期 ， 新 的 RISC (在 第 2 章 讨论 ) 体系 结构 开始 流行 ， 取代 复杂 的 
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CISC 体系 结构 ， 使 计算 机 趋 于 简单 (但 更 快 )。20 世纪 90 年 代 超 级 标量 CPU 出 现 ， 可 同时 
执行 多 条 指令 ， 而 且 常 常 不 是 按 指令 在 程序 中 的 顺序 执行 。 我 们 将 在 第 2 章 介绍 CISC. RISC 
和 超级 标量 CPU 的 概念 ， 并 在 后 续 章 节 中 对 它们 进行 详细 讨论 。 

还 是 在 20 世纪 80 年 代 中 期 ，Ross Freeman 和 他 在 Xilinx 公司 的 同事 们 开发 了 一 个 “ 聪 
明 ” 的 方法 来 构造 集成 电路 ， 这 种 方法 不 需要 花费 太 多 的 钱 ， 也 不 需要 硅 片 制造 设备 。 他 们 
提供 了 一 种 新 型 的 计算 机 芯片 ， 名 为 现场 可 编程 阵列 逻辑 ( Field-Programmable Gate Array, 
FPGA), 里 面 是 大 量 的 通用 收 辑 门 电路 ， 可 进行 “编程 ”成 为 设备 中 所 需要 的 任何 电路 。 这 
对 硬件 设计 来 说 是 一 种 全 新 的 方法 ，FPGA 使 硬件 变 得 像 软件 一 样 具有 了 可 塑性 。 采 用 数 十 
到 几 百 美元 的 FPGA 芯片 ， 就 可 以 构造 出 仅 服 务 于 少量 用 户 的 特定 需求 的 计算 机 系统 。 当 然 ， 
对 于 那些 需求 量 达 百 万 片 级 别 的 通用 芯片 ， 还 是 应 由 硅 片 制造 公司 批量 生产 ， 这 样 的 芯片 速 
度 会 更 快 、 能 耗 更 低 也 更 便宜 。 但 是 ， 对 于 仅 有 少量 用 户 的 一 些 应 用 场合 ， 如 原型 系统 、 小 
批量 试制 以 及 教育 领域 ，FPGA 成 为 了 构造 硬件 的 一 个 常用 手段 。 

一 直到 1992 年 ， 个 人 计算 机 也 不 过 是 8 位 、16 位 或 者 至 多 32 位 。 此 时 ，DEC 革命 性 
地 推出 了 64 位 的 Alpha， 真 正 的 64 位 RISC 计算 机 ， 在 性 能 上 超出 其 他 个 人 计算 机 很 大 一 部 
分 。 当 时 得 到 了 一 定 的 关注 ， 但 几乎 过 去 10 年 以 后 ，64 位 的 计算 机 才 开 始 进入 主流 ， 而 且 
几乎 是 被 高 端的 服务 器 采用 。 

在 整个 20 世纪 90 年 代 ， 通 过 采用 微 体 系 结构 层 的 各 种 优化 措施 ， 计 算 机 系统 的 速度 
越 来 越 快 。 本 书 中 将 论述 其 中 的 一 些 措施 。 计 算 机 用 户 受 到 厂商 的 热 宠 ， 他 们 购买 的 每 台新 
计算 机 都 能 把 程序 运行 得 比 旧 机 器 快 很 多 。 然 而 ， 到 了 20 世纪 90 年 代 的 后 期 ， 这 一 发 展 
趋势 逐渐 变 得 缓慢 起 来 ， 计 算 机 设计 方面 遇 到 了 两 大 障碍 : 系统 结构 的 设计 师 已 经 用 完了 所 
有 能 使 程序 更 快 的 技巧 ， 同 时 ， 处 理 器 散热 的 成 本 也 变 高 了 。 为 了 继续 推出 速度 更 快 的 处 理 
器 ， 大 多 数 计算 机 公司 转 而 采用 并 行 体系 结构 来 从 他 们 的 芯片 中 压榨 出 更 高 的 性 能 。2001 年 ， 
IBM 推出 了 POWER4 双核 体系 结构 ， 这 是 主流 CPU 第 一 次 将 两 个 处 理 器 放置 在 同一 芯片 上 。 
到 今天 ， 大 多 数 桌面 计算 机 和 服务 器 的 处 理 器 ， 甚 至 是 一 些 散 人 式 系统 的 处 理 器 都 已 经 在 一 
片 芯 片上 放置 了 多 个 处 理 器 核 。 可 是 ， 对 多 数 用 户 来 说 ， 这 些 多 处 理 器 的 性 能 并 不 尽 如 人 意 ， 
原因 在 于 (我们 在 后 续 章 节 会 了 解 到 ) 并 行 计算 机 要 求 程 序 员 对 程序 做 并 行 化 ， 这 是 一 项 困 
难 且 容易 出 错 的 工作 。 


1.26 ”第 五 代 一 一 低 功 耗 和 无 所 不 在 的 计算 机 


1981 年 ， 日 本 政府 宣布 计划 投资 5 亿美 元 ， 资 助 日 本 公司 开发 以 人 工 智 能 技术 为 基础 的 
第 五 代 计算 机 ， 以 期 全 面 超越 不 具 智 能 的 第 四 代 计 算 机 。 鉴 于 日 本 公司 在 从 照相 机 到 音响 再 
到 电视 等 许多 电子 行业 所 取得 的 市 场 业绩 ， 美 国 和 欧洲 公司 一 瞬间 都 感到 巨大 的 恐慌 ， 纷 纷 
要 求 政府 提供 补贴 或 其 他 政策 。 虽 然 吹 了 不 少 牛 ， 但 日 本 的 第 五 代 计 算 机 计划 基本 上 是 失败 
了 ， 并 最 终 被 迫 放弃 。 从 某 种 意义 上 说 ， 它 和 Babbage 的 分 析 机 有 几 分 类 似 一 一 都 是 十 分 理 
想 主 义 的 想法 ， 但 远 超 出 了 它们 所 处 的 时 代 ， 能 真正 实现 它们 的 技术 还 不 存在 。 

然而 ， 可 以 称 为 第 五 代 的 计算 机 还 是 出 现 了 ， 虽 然 是 在 一 个 我 们 没有 预见 到 的 方面 : 微 
缩 计算 机 。1989 年 ,Grid Systems 推出 了 第 一 台 名 为 GridPad 的 平板 电脑 ， 它 配 有 一 个 小 屏幕 ， 
用 户 可 以 通过 特制 的 笔 在 屏幕 上 写 来 控制 计算 机 。 类 似 GridPad 这 样 的 系统 表明 ， 不 需要 人 
们 坐 在 书桌 旁 或 者 是 机 房 中 ， 而 仅 需 放 在 一 个 随身 提包 ， 并 附带 触摸 屏 和 手写 识别 的 计算 机 
更 有 价值 。 
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1993 年 推出 的 Apple Newton 就 已 经 表明 计算 机 可 以 做 得 不 超过 一 台 袖 珍 录音 机 的 大 小 。 
和 GridPad 一 样 ，Newton 使 用 手写 方式 输入 ， 而 这 一 方式 在 当时 被 认为 是 它 成 功 的 绊脚石 。 
然而 ， 这 类 机 器 的 后 续 产 品 ， 目 前 称 为 PDA (个 人 数字 助理 ，Personal Digital Assistant )， 极 
大 地 改善 了 人 机 交互 手段 ， 成 为 市 场 上 的 畅销 品 。 现 在 ， 它 们 已 经 发 展 成 为 智能 手机 。 

RA, PDA 的 手写 技术 通过 Jeff Hawkins 的 工作 而 变 得 完美 。Jeff Hawkins 也 创建 了 
Palm 公司 来 生产 大 众 消费 市 场 的 低 成 本 的 PDA。Jeff Hawkins 原本 是 一 名 电子 工程 师 ， 但 他 
一 直 对 神经 学 科 十 分 感 兴 趣 ， 这 是 一 门 研究 人 脑 的 学 科 。 他 认识 到 ， 通 过 简单 训练 用 户 的 手 
写 方式 ， 可 以 让 计算 机 更 为 准确 可 靠 地 识别 手写 体 ， 他 把 这 种 输入 方式 称 为 “Graffiti”， 仅 需 
对 用 户 进行 少量 的 训练 就 能 使 他 们 在 触摸 屏 上 快速 并 可 靠 地 书写 。Palm 公司 的 第 一 台 PDA, 
也 就 是 Palm Pilot 取得 了 巨大 的 成 功 。Graffiti 也 成 为 计算 机 领域 的 成 功 典型 ， 展 示 了 人 类 利 
用 自身 思想 获得 的 极 大 便利 。 

PDA 的 用 户 被 他 们 的 设备 控制 ， 虔 诚 地 使 用 PDA 来 管理 他 们 的 日 常事 务 和 联系 人 。20 
世纪 90 年 代 早 期 ， 当 手机 刚刚 开始 流行 时 ，IBM 抓 住 了 机 会 ， 将 手机 和 PDA 集成 到 一 起 
成 为 “智能 手机 ”。 第 一 台 智 能 手机 ， 也 就 是 Simon， 采用 触摸 屏 作 为 输入 ， 为 用 户 提供 了 
PDA、 电 话 、 游 戏 机 和 电子 邮箱 等 功能 。 智 能 手机 的 小 型 化 和 成 本 的 降低 使 它 获得 了 广泛 的 
应 用 ,遍地 流行 的 Apple iPhone 和 Google Android 平台 手机 就 是 证 明 。 

但 是 ， 即 使 是 PDA 抑或 智能 手机 也 不 能 称 为 革命 性 的 变革 。 更 重要 的 是 “无 所 不 在 ”的 
计算 机 ， 被 符 人 在 家 用 电器 、 手 表 、 银 行 卡 及 数 不 清 的 其 他 设备 中 (Bechini 等 ，2004 )。 这 
些 处 理 器 功能 丰富 、 价 格 低廉 、 用 途 广泛 。 能 和 否 将 它们 划分 为 计算 机 史上 的 一 个 时 代 是 有 争 
议 的 (它们 从 20 世纪 70 年 代 就 出 现 了 ), 但 它们 确实 从 根本 上 改变 了 数 以 千 计 的 电器 和 其 
他 设备 的 工作 方式 , 已 经 对 世界 的 发 展 产生 了 巨大 的 冲击 ， 其 影响 在 今后 的 几 年 内 还 将 不 
断 增 大 。 这 些 舱 入 式 计 算 机 不 平常 的 一 面 是 它们 的 硬件 和 软件 经 常 是 电码 化 的 (Henkel 等 ， 
2003 )。 我 们 将 在 本 书 的 后 面 再 讨论 这 个 问题 。 

如 果 我 们 把 计算 机 的 第 一 代 看 作 电 子 管 计算 机 (A ENIAC), 第 二 代为 晶体 管 计算 机 
( AN IBM 7094), 第 三 代为 集成 电路 计算 机 ( 如 IBM 360) 而 第 四 代为 个 人 计算 机 ( 如 Intel 
的 CPU 系列 )， 实 际 的 第 五 代 计算 机 并 不 特 指 一 种 新 的 体系 结构 的 产生 ， 而 更 是 代表 机 型 的 
转变 。 未 来 计算 机 将 到 处 存在 ， 骨 人 到 任何 对 象 中 一 一 真正 成 为 无 所 不 在 。 它 们 将 成 为 人 
们 日 常生 活 的 一 部 分 ， 为 大 家 开门 、 开 灯 、 付 账 ， 处 理 数 以 千 计 的 事情 。 这 种 模型 由 Mark 
Weiser 首先 定义 为 无 所 不 在 的 计算 (ubiquitous computing )， 但 现在 也 经 常 使 用 普 适 计算 
( pervasive computing ) 这 一 术语 来 说 明 ( Weiser，2002 )。 它 将 和 工业 革命 一 样 ， 对 世界 产 
生 深 远 的 影响 。 本 书 将 不 进行 过 多 讨论 ， 但 想得到 更 多 信息 的 话 ， 可 以 参考 Lyytinen 和 Yoo 
(2002 )、Saha 和 Mukherjee (2003 ) 以 及 Sakamura ( 2002 )。 


1.3 计算 机 家 族 


在 上 节 中 ， 我 们 简单 地 介绍 了 计算 机 的 发 展 历史 。 本 节 我 们 将 讨论 计算 机 的 现状 ， 猜 测 
计算 机 的 未 来 。 虽 然 个 人 计算 机 是 知名 度 最 高 的 计算 机 ， 但 除 它 之 外 还 有 很 多 其 他 机 型 ， 这 
些 都 值得 我 们 简单 介绍 一 下 。 


1.3.1 技术 和 经 济 推动 
计算 机 行业 的 发 展 速度 是 其 他 行业 无 法 比拟 的 ， 其 最 主要 的 原动力 是 每 年 增长 的 在 单 片 


芯片 中 集成 更 多 晶体 管 的 能 力 。 每 片 芯片 集成 的 晶体 管 越 多 ， 即 芯片 中 的 逻辑 门 越 多 ， 也 就 
意味 着 更 大 的 内 存 和 更 强 的 处 理 能 力 。Intel 公司 的 董事 长 和 创建 者 之 一 Gordon Moore 曾经 开 
玩笑 说 ， 如 果 航 空 业 也 和 计算 机 行业 一 样 发 展 迅速 的 话 ， 那 么 现在 一 架 飞 机 的 成 本 将 是 500 
美元 ， 每 20 分 钟 就 可 绕 地 球 飞 行 一 圈 ， 而 只 需要 耗费 5 加 仑 燃料 。 当 然 ， 它 将 会 像 鞋 盒 一 样 
大 小 。 

在 为 一 个 工业 组 织 准备 讲稿 时 ，Moore 注意 到 新 一 代 内 存 芯 片 都 是 在 它 的 上 一 代 推 出 3 
年 后 出 现 的 ， 而 且 都 是 上 一 代 内 存 容 量 的 四 倍 。Moore 据 此 认识 到 每 片 芯片 中 集成 的 晶体 管 
数量 是 以 基本 固定 的 速度 增加 的 ， 而 且 预 测 今后 十 年 也 会 保持 这 个 发 展 速度 。 他 的 这 一 观察 
结果 后 来 被 总 结 成 Moore 定律 。 现 在 ，Moore 定律 的 通常 表述 是 每 个 芯片 中 的 晶体 管 数 量 18 
个 月 翻 一 番 ， 也 就 是 说 ， 每 年 增长 60%。 图 1-8 给 出 的 内 存世 片 容量 及 其 推出 的 时 间 证 实 了 
Moore 定律 在 过 去 的 40 多 年 中 是 正确 的 。 
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图 1-8 Moore 定律 预测 芯片 中 晶体 管 数量 将 以 每 年 60% 的 速度 增长 。 图 中 直线 上 下 的 数据 点 表 
示 内 存 容量 大 小 ， 单 位 为 位 


当然 ，Moore 定律 实际 上 并 不 是 一 条 定律 ， 它 只 是 根据 对 固体 物理 学 家 和 工艺 工程 师 推 
动 芯片 发 展 工作 的 观察 而 得 出 的 经 验 公 式 ， 并 预测 将 来 还 会 保持 这 个 发 展 速度 。 许 多 工业 观 
察 家 预计 Moore 定律 在 今后 的 十 年 或 者 更 长 一 段 时 间 内 还 将 持续 有 效 。 其 他 观察 家 预计 能 量 
损耗 、 电 流 泄漏 及 其 他 一 些 问 题 将 会 出 现 得 更 时 一些 并 引发 严重 的 问题 ， 这 些 问 题 也 需要 解 
决 (Bose, 2004; Kim 等 ，2003 )。 然 而 ， 唱 体 管 不 断 缩 小 的 现实 使 得 它们 不 久 将 只 有 几 个 
原子 那么 厚 ， 到 那 时 ,构成 晶体 管 的 原子 太 少 将 导致 它 不 再 可 靠 , 或 者 是 进一步 缩小 晶体 管 
会 使 得 我 们 要 进入 它 的 亚 原 子 组 成 部 分 。( 作为 一 个 好 建议 ， 当 硅 片 制造 厂 要 切 分 单个 原子 
组 成 的 晶体 管 时 ， 所 有 工作 人 员 都 去 休假 吧 ! ) 尽管 延长 Moore 定律 面临 着 许多 的 挑战 ， 但 
依然 有 充满 希望 的 技术 扣 露 头角 ， 比 如 量子 计算 ( Oskin 等 ，2002 ) 和 纳米 碳 管 (Heinze 等 ， 
2002) 等 领域 的 进展 ， 也 许 会 给 我 们 带 来 突破 硅 技 术 限 制 以 进一步 缩小 电路 的 机 会 。 

Moore 定律 使 计算 机 工业 走向 经 济 学 家 所 说 的 良性 循环 。 技 术 的 进步 ( 芯片 集成 度 的 
提高 ) 带 来 更 好 的 产品 和 低廉 的 价格 ; 而 低廉 的 价格 又 带 来 新 的 应 用 ( 当 每 台 计 算 机 售 价 
一 千 万 美元 时 是 不 会 有 人 玩 视频 游戏 的 ， 当 然 价 格 在 12 万 美元 时 ， 麻 省 理工 的 学 生 们 曾 应 对 
过 这 一 挑战 ); 新 的 应 用 又 带 来 新 的 市 场 和 设法 从 新 市 场 中 分 一 杯 姜 的 新 公司 ; 新 公司 的 出 现 
带 来 了 竞争 ， 又 反 过 来 带动 对 作为 竞争 手段 的 更 好 的 技术 的 需求 。 这 就 是 一 个 完整 的 循环 。 
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推动 技术 进步 的 另 一 个 因素 是 Nathan 的 软件 第 一 定律 〈 以 微软 高 级 经 理 Nathan 


[29] Myhrvold 命名 )。 他 认为 : “软件 是 一 种 可 以 膨胀 到 充满 整个 容器 的 气体 。”20 世纪 80 年 代 流 


[30] 


行 的 字 处 理 软件 是 类 似 于 tro 企 之 类 的 程序 (本 书 的 编写 也 用 过 它 )， 占 用 几 十 KK 内存， 而 现 
在 的 字 处 理 软件 要 占用 几 十 M 内 存 ， 将 来 毫 无 疑问 要 占用 几 十 G 内 存 (作为 首次 近似 ，K、 
M、G 分别 代表 千 、 百 万 和 十 亿 ，1.5 节 将 详细 讨论 这 些 单位 )。 软 件 持 续 不 断 地 发 展 ( 不同 
于 小 船 不 断 吸附 芯 壶 ) 的 这 个 特点 对 更 快 的 处 理 器 、 更 大 的 内 存 、 更 强 的 输入 /输出 能 力 提 
出 了 持续 的 要 求 。 

这 些 年 来 ， 在 芯片 集成 度 大 幅度 提高 的 同时 ， 其 他 计算 机 技术 的 进步 也 不 小 。 例 如 ， 
1982 年 推出 的 IBM PC/XT 硬盘 容量 是 10MB。30 年 后 ，1TB 的 硬盘 在 现在 的 PC 上 已 经 十 分 
普遍 。30 年 内 有 5 倍 量 级 的 提高 ， 意 味 着 每 年 的 存储 容量 增加 50%。 当 然 ， 仅 比较 容量 对 衡 
量 硬盘 的 发 展 有 点 不 够 ， 因 为 还 有 存 取 速 度 、 寻 道 时 间 和 价格 等 好 几 个 衡量 指标 。 但 是 ， 几 
乎 任何 指标 都 可 以 表明 ， 从 1982 年 起 ,硬盘 的 性 能 / 价格 比 每 年 增加 大 约 50%。 硬 盘 性 能 上 
取得 的 巨大 提高 ， 和 从 硅谷 运 出 的 硬盘 的 销售 额 远 超出 CPU 的 销售 额 ， 使 Al Hoagland 建议 
硅谷 应 该 改名 为 铁 氧 谷 (因为 这 是 磁盘 所 使 用 的 记录 介质 )。 慢 慢 地 ， 这 个 趋势 正在 回头 ， 因 
为 硅 制 造 的 闪存 已 经 开始 在 许多 系统 中 取代 传统 的 旋转 硬盘 了 。 

取得 辉煌 成 就 的 另外 一 个 领域 就 是 通信 和 网 络 了 。 在 不 到 二 十 年 的 时 间 里 ， 我 们 从 
300bps 的 调制 解 调 器 ( modem )， 发 展 到 56kbps 的 模拟 式 modem， 而 光纤 网 络 的 传输 速度 已 
大 大 超过 1Gbps。 光 纤 传 输 的 电话 线 ， 比 如 TAT-12/13， 成 本 为 7 亿美 元 ,可 使 用 10 年 ， 可 
同时 接 通 300 000 个 电话 ， 将 使 10 分 钟 的 越 洋 电话 成 本 不 超过 1 美 分 。 在 实验 室 ， 不 用 放大 
器 以 1Tbps 速度 传输 100km 以 上 的 光纤 通讯 系统 已 经 证 明 是 可 实现 的 。 而 互联 网 的 指数 级 增 
长 就 不 用 在 这 里 多 说 了 。 


1.3.2 ”计算 机 扫 视 


Richard Hamming， 贝 尔 实验 室 的 前 研究 人 员 ， 注 意 到 量变 到 一 定 的 程度 会 引发 质变 。 一 
辆 能 在 内 华 达州 的 沙漠 中 达到 每 小 时 1000 公里 的 跑车 和 在 高 速 公 路 上 每 小 时 跑 100 公里 的 汽 
车 有 着 根本 的 不 同 。 与 此 类 似 ，100 层 的 摩天 大 厦 绝 不 简单 是 10 层 公寓 楼 的 层 数 上 的 增加 。 
而 对 计算 机 来 说 ， 我 们 要 谈论 的 因子 不 是 10， 在 40 年 的 历程 中 ， 因 子 已 经 是 百 万 。 

Moore 定律 的 效用 可 以 让 芯片 供应 商 以 不 同 的 方式 实现 。 一 种 方式 是 以 同样 的 价格 造 出 
功能 更 强大 的 计算 机 ， 另 外 就 是 以 逐年 下 降 的 价格 提供 相同 的 计算 机 。 计 算 机 界 从 多 方面 人 
手 ， 提 供 了 多 种 多 样 用 途 广泛 的 计算 机 。 图 1-9 给 出 了 目前 计算 机 一 个 非常 粗糙 的 分 类 。 
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图 1-9 目前 计算 机 分 类 。 价 格 有 所 保留 
我 们 将 在 后 续 的 几 节 分 别 介绍 表 中 的 各 类 别 计算 机 ， 并 简单 讨论 它们 的 特性 。 
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1.3.3 一 次 性 计算 机 


在 分 类 的 最 低 端 ， 是 我 们 能 在 贺卡 里 找到 的 粘 在 里 面 会 奏 出 诸如 “生日 快乐 “新 娘 从 
这 里 来 ”之 类 小 曲 的 芯片 。 作 者 目前 还 没有 发 现 会 演奏 葬礼 曲子 的 安慰 卡 ， 但 既然 已 经 在 本 
书 中 公开 了 这 个 主意 ， 和 希望 不 久之 后 能 看 到 。 对 所 有 和 数 百 万 美元 一 台 的 大 型 计算 机 一 起 长 
大 的 人 来 说 ， 一 次 性 计算 机 的 概念 就 像 一 次 性 飞机 一 样 不 可 能 。 

然而 ， 一 次 性 计算 机 确实 出 现在 我 们 的 生活 中 。 其 中 最 重要 的 应 用 可 能 就 是 无 线 射频 识 
别 (Radio Frequency IDentification, RFID ) 芯片 。 目 前 ， 已 经 有 可 能 用 几 美 分 的 成 本 制造 出 
边沿 厚度 小 于 0.5mm 的 RFID 芯片 ， 内 含 一 个 微型 无 线 发 射 机 应 答 器 及 内 置 的 128 位 的 唯一 
编码 。 当 感受 到 外 部 天 线 发 出 的 脉冲 信号 后 ，RFID 芯片 将 利用 感应 到 的 无 线 信号 作为 能 量 ， 
将 自身 的 编号 传送 回 天 线 。 昌 然 芯片 本 身 是 微小 的 ， 但 它们 所 暗含 的 作用 却 是 巨大 的 。 

让 我 们 用 一 个 日 常 应 用 一 一 取代 商品 上 的 条 形 码 一 一 来 说 明 RFID 的 用 途 。 商 品 的 制造 
商 将 RFID 芯片 ( 取代 商品 的 条 形 码 ) 附加 在 商品 上 ， 顾 客 选择 好 商品 后 ， 将 它们 放 在 购物 
车 中 ， 不 再 通过 收银 台 而 直接 推出 商场 。 在 商场 的 出 口 处 设置 的 读 码 器 天 线 发 出 无 线 信 和 号， 
询问 每 个 商品 上 的 RFID 芯片 的 编号 ， 整 个 过 程 只 需要 一 个 简单 的 无 线 通 信和 就 可 完成 。 与 此 
同时 ， 顾 客 身份 也 可 由 他 的 银行 卡 或 信用 卡 上 的 世 片 识别 。 每 个 月 未 ， 商 场 将 向 顾客 发 出 一 
个 月 度 购物 清单 。 如 果 顾 客 没 有 合法 的 RFD 银行 卡 或 信用 卡 ， 将 发 出 警示 信息 。RFID 的 这 
个 应 用 不 但 可 以 省 去 收银 员 ， 顾 客 也 不 再 需要 排队 交 款 ， 而 且 还 是 一 个 很 好 的 防盗 系统 ， 因 
为 将 商品 藏 在 包 中 或 口袋 中 已 经 没有 任何 意义 了 。 

RFID 系统 还 有 一 个 值得 注意 的 特点 ， 即 它 除 了 可 以 和 传统 的 条 码 系统 一 样 标识 商品 类 别 
外 ， 利 用 它 的 128 位 的 编码 ， 还 可 以 标识 条 码 系 统 无 法 标识 的 商品 本 身 的 编号 。 这 样 ， 超 市 
货架 上 的 每 一 个 商品 包装 ， 如 每 一 盒 阿 司 匹 林 ， 将 有 自己 唯一 的 RFID 编码 。 这 意味 着 ， 如 
果 某 个 药品 生产 商 发 现 自己 已 经 发 货 的 某 个 批号 的 阿司匹林 有 质量 缺陷 ,那么 全 世界 的 所 有 
超市 都 可 以 得 到 这 批 产 品 的 RFID 编号 范围 。 即 使 在 数 月 之 后 ， 当 顾客 在 其 他 国家 选 购 了 在 
缺陷 范围 内 的 阿司匹林 ， 他 在 出 口 处 将 得 到 警示 信息 。 而 没有 缺陷 的 阿司匹林 产品 就 不 会 引 
发 报警 。 

但 是 ， 标 识 每 一 单独 包装 的 阿司匹林 、 饼 干 和 狗 食 仅仅 是 一 个 开端 。 当 你 能 标记 每 条 狗 
的 时 候 ， 为 什么 仅 停留 在 标记 狗 食 上 呢 ? 宠物 主人 已 经 要 求 兽医 在 他 们 的 宠物 内 植 人 RFID 
芯片 ， 当 宠物 被 偷 或 者 丢失 时 ， 主 人 可 以 据 此 进行 追踪 。 农 场 主 也 会 要 求 标 记 他们 饲养 的 动 
物 。 下 一 步 ， 有 一 些 神经 质 的 父母 可 能 要 求 儿 科大 夫 把 RFID 芯片 植 人 到 他 们 的 孩子 身上 ， 
以 防 他 们 走失 或 者 被 拐卖 。 如 果 到 了 这 一 步 ， 医 院 为 防止 把 孩子 弄 混 而 向 所 有 的 新 生 儿 植 人 
芯片 就 是 顺理成章 的 事情 了 。 政 府 和 警察 毫 无 疑问 能 想 出 很 多 十 分 正当 的 理由 来 全 天 候 追 踪 
所 有 的 公民 。 到 此 为 止 ，REFID 芯片 的 “实现 ”可 能 造成 的 影响 会 更 清晰 一 些 。 

RFID 芯片 的 另 一 项 《争论 会 小 一 些 ) 应 用 是 对 车 辆 的 追踪 。 当 组 有 芯片 的 列车 通过 读 码 
器 时 ， 与 读 码 器 相连 的 计算 机 就 可 得 到 通过 的 是 哪些 车 厢 的 列表 ， 可 方便 地 确定 全 铁路 系统 
每 节 车 厅 的 位 置 ， 对 供 货 商 、 客 户 和 铁路 都 十 分 有 利 。 类似 的 应 用 也 可 用 在 卡车 运输 上 。 对 
于 小 轿车 ，RFID 已 经 用 于 收费 站 的 电子 收费 (如 E-Z 通行 系统 )。 

航空 公司 的 行李 系统 以 及 其 他 许多 行 包 系 统 也 可 以 采用 RFID 芯片 。 伦 敦 希 思 罗 机 场 的 
测试 系统 已 经 在 进行 到 达 旅 客 免 取 行李 的 实验 。 预 定 了 此 项 服务 的 旅客 携带 的 行李 ， 将 被 贴 
上 RFID 芯片 ， 在 机 场 内 单独 转运 ， 并 直接 送 到 旅客 的 酒店 。RFID 芯片 的 其 他 应 用 包括 装配 
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线 上 的 汽车 到 达 喷 漆 车 间 时 ， 确 定 它 应 该 喷漆 的 颜色 ; 动物 的 迁徙 ; 要 洗 的 衣服 和 洗衣 机 通信 ， 
确定 洗衣 的 温度 等 。RFID 芯片 也 可 以 和 传感器 结合 在 一 起 ， 这 样 ， 它 们 编码 的 低位 可 以 存放 
当前 的 温度 、 压 力 、 湿 度 及 其 他 环境 变量 。 

更 高 级 的 REID 芯片 可 以 设置 永久 存储 区 。 这 一 进步 使 欧洲 中 央 银 行 决定 在 几 年 后 在 欧 
元 钞票 中 设置 RFID 芯片 ， 这 些 芯片 可 以 记录 它们 曾经 流通 到 的 地 方 。 这 一 措施 不 但 可 以 使 
伪造 欧元 成 为 几乎 不 可 能 的 事情 ， 也 使 追踪 绑架 勒索 的 赃款 、 抢 动 的 赃款 和 被 洗钱 的 赃款 等 
比 现在 容易 得 多 。 当 钞票 不 再 是 匿名 的 后 ， 将 来 标准 的 警察 办 案 程 序 将 增加 检查 嫌犯 的 钱 最 
近 在 什么 地 方 这 么 一 项 。 当 人 们 的 钱包 中 已 经 满 是 RFID 芯片 后 ， 还 有 谁 需要 将 芯片 植 和 人 到 
体内 呢 ? 再 则 ， 当 公众 知道 RFID 芯片 可 产生 的 效果 后 ， 显 然 会 引发 一 场 相关 的 公众 讨论 。 

RFID 芯片 技术 进步 很 快 ， 最 小 的 芯片 是 被 动 的 ( 内 部 没有 电源 )， 仅 能 在 被 询问 时 回答 
自己 的 唯一 编码 ， 而 更 大 一 些 的 芯片 是 主动 的 ， 内 部 有 一 个 小 型 电池 和 简单 的 计算 机 ,能够 
做 一 些 计 算 。 用 于 电子 交易 的 智能 卡 就 属于 这 一 类 的 RFID 芯片 。 

RFID 芯片 的 区 别 不 仅 是 主动 型 或 者 被 动 型 ， 也 可 根据 其 对 应 的 频率 范围 来 区 分 。 工 作 
于 较 低 频率 的 芯片 数据 传输 率 低 ， 但 可 感应 的 距离 长 。 而 工作 于 较 高 频率 的 数据 传输 率 高 但 
感应 距离 短 。 当 然 ， 还 有 其 他 的 不 同 点 ， 芯 片 技术 本 身 也 在 不 断 提高 。 互 联网 上 到 处 是 有 关 
RFID 芯片 的 信息 ， 其 中 www.rfid.org 是 一 个 不 错 的 起 点 。 


1.3.4 ”微型 控制 器 


表 中 第 二 项 是 那些 内 在 设备 中 、 并 不 作为 计算 机 出 售 的 计算 机 。 租 人 式 计算 机 ， 有 时 又 
称 为 微型 控制 器 ,管理 设备 并 负责 与 用 户 交 互 。 可 以 在 许多 不 同 种 类 的 设备 中 发 现 微 型 控制 
器 ， 下 面 列 出 了 其 中 的 几 类 ， 括 号 中 是 每 个 类 别 具 体 设备 的 举例 。 

1) 家 用 电器 〈 收音 机 闹钟 、 洗 衣 机 、 烘 干 机 、 微 波 炉 、 防 盗 警报 器 )。 

2) 通信 设备 (无绳 电话 、 蜂 窝 电 话 、 传 真 机 、 传 呼 机 )。 

3) 计算 机 外 部 设备 (打印 机 、 扫 描 仪 、 调 制 解 调 器 、 光 盘 驱动 器 )。 

4) 娱乐 设备 (录像 机 、DVD、 立 体 音响 、MP3 播放 器 、 机 项 盒 )。 

5) 图 像 设备 (电视 机 、 数 码 相机 、 便 携 式 摄像 机 、 镜 头 、 影 印 机 )。 

6) 医疗 设备 (和光 机 、 核 磁 共 振 机 、 心 脏 监视 器 、 数 字体 温 计 )。 

7) 军事 武器 系统 (巡航 导弹 、 洲 际 弹道 导弹 、 鱼 雷 ) 

8) 商业 设施 〈 售 货机 、 自 动 柜员 机 、 收 银 机 )。 

9) 玩具 《有声 玩偶 、 游 戏 机 、 遥 控 车 或 遥控 船 )。 

一 辆 高 级 汽车 很 容易 就 可 以 包含 50 个 微型 控制 器 ， 运 行 着 如 防 抱 死 刹车 系统 、 燃 油 加 注 
系统 、 无 线 通信 系统 和 GPS 等 子 系统 。 而 一 架 喷气 式 飞机 可 十 分 容易 地 拥有 超过 200 个 微型 
控制 器 。 一 个 家 庭 可 在 你 不 知 不 党 的 情况 下 拥有 数 百 个 微型 控制 器 。 几 年 之 内 ， 几 乎 所 有 依 
靠 电能 或 电池 工作 的 设施 都 将 装 上 微型 控制 器 。 每 年 出 售 的 微型 控制 器 的 数量 是 其 他 所 有 计 
算 机 ( 除 一 次 性 计算 机 外 ) 数量 的 指数 倍 。 

如 果 我 们 把 RFID 芯片 称 为 最 小 系统 ， 那 么 微型 控制 器 则 可 以 认为 是 一 台 很 小 但 却 是 完 
整 的 计算 机 。 每 台 微型 控制 器 都 有 处 理 器 、 存 储 器 和 输入 /输出 能 力 。 它 的 输入 /输出 能 力 通 
常 包括 感知 设备 按钮 和 开关 的 状态 ， 以 及 控制 设备 的 灯光 、 显 示 面 板 、 声 音 及 马达 。 多 数 情 
况 下 ， 微 型 控制 器 的 软件 在 设备 生产 时 就 以 固件 的 形式 固化 在 只 读 存储 器 中 。 主 要 的 微型 控 
制 器 有 两 类 : 通用 型 和 专用 型 。 前 者 仅 是 小 型 化 的 普通 计算 机 ; 后 者 则 具备 为 某 些 特定 应 用 ， 
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如 多 媒体 ， 所 专门 设计 的 体系 结构 和 指令 集 。 以 机 器 字 长 区 分 的 话 ， 微 型 控制 器 有 4 位 、8 
位 、16 位 和 32 位 的 不 同 版 本 。 

然而 ， 即 使 最 通用 的 微型 控制 器 也 和 标准 PC 有 着 重要 的 区 别 。 首 先 ， 它 们 对 价格 特别 
敏感 。 一 个 要 购买 数 百 万 套 产 品 的 公司 可 能 会 根据 1 美 分 的 价格 差异 来 决定 对 产品 的 取舍 。 
这 使 得 微型 控制 器 的 生产 商 更 倾向 于 根据 制造 成 本 来 选择 产品 的 体系 结构 ， 这 对 价格 达 数 百 
美元 的 芯片 来 说 根本 就 不 是 考虑 的 因素 。 微 型 控制 器 的 价格 依据 机 器 字 长 、 内 存 大 小 的 配置 
及 其 他 因素 的 不 同 而 变化 很 大 ， 例 如 ， 对 于 销售 量 足 够 多 的 8 位 微型 控制 器 ， 其 每 套 价格 最 
低 可 能 不 超过 10 美 分 。 这 个 价格 使 得 在 售 价 9.95 美元 的 闹钟 收音 机 中 装 上 一 套 微 型 控制 器 
成 为 可 能 。 

其 次 ， 所 有 的 微型 控制 器 实际 上 都 工作 在 实时 状态 。 一 旦 它们 接收 到 信和 号， 就 希望 它们 
能 立即 反应 。 例 如 ， 用 户 按 下 按钮 后 ， 通 常会 亮 起 一 荔 灯 ， 在 按 下 按钮 和 亮 灯 这 两 个 动作 间 
应 该 没有 任何 的 延迟 。 实 时 工作 的 需求 通常 对 体系 结构 会 产生 重要 的 影响 。 

第 三 ， 舱 人 式 系统 经 常 在 体积 、 重 量 、 能 耗 以 及 其 他 电气 和 机 械 参 数 上 受到 一 些 具体 条 
件 的 限制 。 这 些 ， 均 需要 在 设计 微型 控制 器 时 加 以 考虑 。 

微型 控制 器 的 一 个 特别 有 趣 的 应 用 是 Arduino ie Ast AOE G. EEA Massimo Banzi 
和 Dvid Cuartielles 在 意大利 的 Ivrea 设计 的 。 他 们 的 目标 是 制造 一 个 完整 的 代入 式 开 发 平台 ， 
成 本 不 应 超过 一 个 带 额 外 浇 头 的 大 比萨 ， 这 样 可 以 让 学 生 们 和 业余 爱好 者 很 容易 得 到 。( 这 是 
一 个 难题 ， 因 为 意大利 的 比萨 实在 太 多 了 ， 所 以 它们 十 分 便宜 。) 他 们 很 好 地 实现 了 这 个 目 
标 ， 一 套 完 整 的 Arduino 系统 成 本 不 超过 20 美元 。 

Arduino 系统 是 一 个 开源 的 硬件 设计 平台 ,这 意味 着 它 全 部 的 细节 都 是 公开 和 人 免费 的 ， 
这 样 ， 任 何人 都 可 以 构造 ( 甚至 销售 ) 一 个 Arduino 系统 。 它 基于 Atmel 的 AVR 8 位 RISC 
微 控 制 器 ， 并 且 绝 大 多 数 都 包括 了 对 基本 IO WS. FRR AKA RSA Wiring 编 
程 ，Wiring 内 置 了 控制 实时 设备 所 需要 的 功能 。 真 正 让 大 家 乐于 使 用 Arduino 系统 的 原因 是 
它 庞 大 而 活跃 的 开发 者 社区 ,公布 了 数 以 千 计 的 Arduino 项 目 ， 从 电子 污染 物 嗅 探 器 到 带 转 
向 信号 灯 的 自行 车 骑 行 夹克 ， 以 及 可 以 在 植物 需要 浇灌 的 时 候 发 出 电子 邮件 的 湿度 检查 器 ， 
还 有 无 人 驾驶 的 自动 飞机 等 。 想 要 了 解 更 多 的 Arduino 的 知识 并 亲手 开发 自己 的 Arduino 项 
目 ， 可 以 登录 www.arduino.ce 网 站 。 


13.5 ”移动 计算 机 和 游戏 计算 机 


再 往 上 一 步 就 是 移动 平台 和 可 以 玩 视频 游戏 的 游戏 计算 机 了 。 它 们 就 是 普通 的 计算 机 ， 
配 有 特别 的 图 形 显示 和 声音 播放 设备 ， 但 软件 有 限 且 几乎 不 能 扩展 。 早 期 的 这 类 计算 机 采用 
低 端 的 CPU， 组 成 简单 的 电话 和 可 用 来 在 电视 机 上 玩 乒 乓 球 游戏 的 游戏 机 。 经 过 多 年 的 发 展 
后 ， 它 们 在 性 能 上 E 有 了 很 大 提高 ， 在 某 些 指标 上 已 经 可 以 与 个 人 计算 机 相 抗衡 ， 甚 至 超过 个 
人 计算 机 。 

我 们 想 通 过 介绍 三 种 流行 的 游戏 计算 机 ， 让 大 家 对 它 有 基本 的 了 解 。 首 先是 Sony 的 
PlayStation 3。 它 拥有 1 个 以 IBM PowerPC 的 RISC CPU 为 基础 发 展 起 来 的 3.2GHz 主 频 多 
核 专用 CPU ( 称 为 Cell 微 处 理 器 )， 并 配 有 7 个 128 位 协同 处 理 单元 (SPE), PlayStation 3 
的 内 存 是 512M 字 节 的 RAM， 还 有 定制 的 SSOMHz 的 Nvidia 图 形 处 理 芯片 以 及 蓝光 播放 器 。 
第 二 种 是 微软 的 Xbox 360， 采 用 3.2GHz 主 频 的 IBM 三 核 CPU， 配 置 512MB AY RAM 作为 
内 存 ，500MHz 定制 的 ATI 图 形 处 理 芯 片 ，DVD 播放 器 ， 还 有 一 个 硬盘 。 第 三 种 是 三 星 的 
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Galaxy 平板 电脑 (本 书 就 是 用 它 校对 的 )。 它 配备 两 个 1GHz 的 ARM 核 ， 附 带 图 形 处 理 单元 
(集成 在 Nvidia Tegra 2 片上 系统 中 )，1GB 的 RAM 作 内 存 ， 双 摄像 头 ，3 轴 陀 螺 仪 和 Flash 
存储 器 。 

尽管 这 些 机 器 的 处 理 能 力 与 同时 期 的 高 端 个 人 计算 机 比 还 有 一 定 的 差距 ,但 相差 并 不 太 
多 ， 在 某 些 方面 甚至 还 有 所 超越 ( 例如 ，PlayStation 3 的 128 位 字 长 的 SPE 就 比 任何 PC 的 
CPU 都 要 宽 )。 这 些 机 器 和 PC 主要 的 区 别 应 该 说 还 不 是 CPU 的 差异 ， 而 在 于 它们 是 一 个 封 
闭 的 系统 。 虽 然 有 时 也 提供 USB 和 FireWire 接口 ， 但 用 户 一 般 无 法 通过 插入 接口 卡 对 其 进 
行 扩 展 。 另 外 ， 可 能 也 是 最 重要 的 ， 这 些 计算 机 都 经 过 了 细致 的 优化 ， 以 适应 带 3 维 图 形 和 
多 媒体 输出 这 类 高 度 交 互 性 的 应 用 ， 其 他 任何 功能 都 被 放 在 了 第 二 位 。 这 些 软 硬 件 上 的 限制 、 
缺乏 扩充 性 、 较 小 的 内 存 空间 、 省 略 高 分 辩 率 的 显示 器 、 小 容量 (有 时 甚至 没有 ) 硬盘 ， 使 
这 些 机 器 的 制造 成 本 和 销售 价格 要 远 低 于 个 人 计算 机 。 因 此 ， 尽 管 有 许多 的 限制 因素 ， 这 些 
设备 依然 销售 了 数 百 万 台 ， 而 且 销 量 还 在 不 断 增 长 中 。 

对 移动 计算 机 的 男 外 一 个 要 求 是 运行 中 尽量 减少 能 量 消耗 。 能 量 消耗 得 越 少 ， 电 池 持 续 
的 时 间 就 越 长。 这 是 一 个 颇具 挑战 性 的 设计 要 求 ， 因 为 平板 电脑 和 智能 手机 需要 节约 能 量 ， 
可 是 ,这 些 设 备 的 用 户 却 期 待 高 性 能 处 理 能 力 ， 比 如 对 3 维 图 形 、 高 音质 多 媒体 ， 还 有 游戏 
的 处 理 。 


1.3.6 个 人 计算 机 


还 有 就 是 个 人 计算 机 了 ,也 就 是 大 多 数 人 听 到 “计算 机 ”这 个 词 时 想到 的 东西 ， 包 括 桌 
面 系统 和 笔记 本 型 计算 机 。 它 们 一 般 会 有 数 GB 的 内 存 、 一 个 可 存放 达 IT 左右 数据 的 硬盘 、 
CD-ROM/DVD/ 蓝光 的 光驱 、 声 卡 、 网 络 接 口 、 高 分 辨 率 显 示 器 和 其 他 外 部 设备 。 软 件 上 配 
有 精细 的 操作 系统 、 许 多 可 扩展 的 选 件 ， 以 及 众多 的 可 随时 得 到 的 其 他 软件 。 

每 台 个 人 计算 机 的 心脏 是 在 机 箱底 部 或 旁边 的 印刷 电路 板 ， 板 上 通常 有 CPU、 内 存 条 、 
各 种 输入 /输出 设备 ( 如 声卡 ， 可 能 还 有 调制 解 调 器 )， 以 及 键盘 、 鼠 标 、 硬 盘 、 网 卡 等 接 
口 ， 还 有 一 些 扩展 槽 。 这 些 电路 板 的 一 幅 照 片 如 图 1-10 所 示 。 





图 1-10 位 于 个 人 计算 机 心脏 的 印刷 电路 板 。 本 图 是 Intel DQ67SW 主板 的 照片 。 
© 2011 Intel Corporation, 已 获得 使 用 授权 
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笔记 本 型 计算 机 基本 上 是 缩小 了 的 PC 机 ， 它 们 使 用 相同 的 硬件 部 件 ， 仅 仅 是 按 更 小 的 
尺寸 进行 生产 。 同 样 ， 它 们 运行 的 软件 也 和 桌面 计算 机 相同 。 由 于 绝 大 多 数 读者 都 对 笔记 本 
型 和 个 人 计算 机 相当 熟悉 ， 我 们 就 不 再 做 过 多 介绍 了 。 

这 里 还 要 提 及 的 一 种 机 器 是 平板 电脑 ， 比 如 十 分 流行 的 iPad。 这 些 设备 就 是 小 型 包装 的 
普通 PC， 只 不 过 用 固态 硬盘 替代 了 传统 的 旋转 式 硬 盘 ， 装 上 了 触摸 屏 ， 并 用 了 一 个 不 同 于 
x86 的 CPU。 从 体系 结构 角度 来 看 ， 平 板 电脑 就 是 外 形 不 一 样 的 笔记 本 型 电脑 。 


1.3.7 服务 器 


比 个 人 计算 机 或 工作 站 档次 更 高 一 些 的 就 是 网 络 服务 器 ,通常 既 用 于 局 域 网 ( 一般 限 于 
单个 公司 内 部 ) 也 用 于 互联 网 。 它 们 有 一 个 或 多 个 处 理 器 、 上 GB 的 内 存 和 几 卫 的 硬盘 、 高 
速 的 网 络 处 理 能 力 ， 有 的 甚至 每 秒 能 处 理 几 十 上 百 个 外 部 请 求 。 

实际 上 ， 从 体系 结构 上 看 ， 单 处 理 器 的 服务 器 和 单 处 理 器 的 个 人 计算 机 并 没有 真正 的 差 
别 ， 仅 仅 是 更 快 一 些 、 体 积 更 大 一 些 、 硬 盘 空 间 也 大 一 些 ， 也 许 网 络 连接 也 更 快 一 些 。 服 务 
器 运行 的 操作 系统 也 和 个 人 计算 机 一 样 ， 也 就 是 特定 的 UNIX 系统 或 者 是 Windows 系统 。 

集群 

由 于 服务 器 在 性 价 比 上 的 持续 增长 ， 近 年 来 ， 系 统 设 计 师 们 开始 将 它们 连接 起 来 ， 共 同 
组 成 集群 。 集 群 由 标准 的 服务 器 级 别 系统 通过 Gbps 的 网 络 连接 而 成 ， 运 行 特殊 的 软件 使 所 有 
机 器 共同 解决 一 个 商务 、 科 学 或 工程 问题 。 它 们 经 常 就 是 所 谓 的 COTS ( Commodity Off The 
Shelf， 商 用 现成 产品 )， 任 何人 都 能 从 最 普通 的 PC 供应 商 那 买 到 。 主 要 增加 的 是 高 速 网 络 ， 
但 有 时 也 仅仅 是 标准 的 商用 网 卡 而 已 。 

通常 ， 大 集群 被 放置 在 一 个 专门 的 房间 或 者 建筑 中 ， 成 为 数据 中 心 (data center )。 数 据 
中 心 的 规模 差异 很 大 ， 可 以 从 几 台 机 器 到 十 几 万 台 。 这 经 常 受到 能 得 到 的 经 费 的 限制 。 由 于 
构成 数据 中 心 的 机 器 价格 低廉 ， 小 公司 现在 也 可 以 把 它们 用 作 内 部 使 用 的 服务 器 了 。 尽 管 从 
严格 意义 上 说 ,“ 集 群 ” 指 的 是 服务 器 的 集合 ， 而 “数据 中 心 ” 指 的 是 放置 集群 的 房间 或 者 建 
筑 ， 但 许多 人 也 会 把 这 两 个 词 混用 。 

集群 的 另外 一 种 常见 用 途 是 互联 网 的 Web 服务 器 。 当 预计 一 个 Web 站 点 每 秒 钟 的 访问 
请 求 达 到 数 千 次 时 ， 最 经 济 的 解决 方案 通常 是 采用 数 百 台 甚 至 几 千 台 服 务 器 组 成 一 个 数据 中 
心 。 这 样 ， 各 访问 请 求 可 以 分 配给 不 同 的 服务 器 进行 并 行 处 理 。 例 如 ，Google 公司 在 世界 各 
地 设立 了 数据 中 心 来 提供 搜索 服务 ， 其 中 最 大 的 一 个 位 于 美国 俄 勒 罗 的 达拉斯 ， 设 备 占 地 有 
两 个 (美式 ) 足球 场 大 。 选 择 达 拉 斯 的 原因 在 于 数据 中 心 需 要 消耗 大 量 的 电力 ， 当 地 有 个 建 
在 哥伦比亚 河上 的 2G 瓦 水 电站 来 满足 这 个 要 求 。Google 的 数据 中 心 据 信 总 共有 超过 100 万 
台 服 务 器 。 

计算 机 行业 活力 四 射 ， 时 刻 都 在 变化 当中 。 在 20 世纪 60 年 代 ， 数 千 万 美元 的 大 型 主机 
(我 们 下 面 会 谈 到 ) 统治 了 计算 领域 ， 用 户 通过 小 的 远程 终端 和 主机 连接 。 这 是 一 个 高 度 集中 
的 模式 。20 世纪 80 年 代 转 变 为 个 人 计算 机 时 代 ， 数 以 百 万 计 的 人 们 都 购买 了 计算 机 ， 此 时 
计算 远离 了 集中 模式 。 

数据 中 心 的 出 现 ， 使 得 我 们 开始 以 云 计 算 的 形式 复活 过 去 的 模式 ， 也 就 是 主机 计算 的 2.0 
版 。 此 时 ， 每 个 用 户 都 有 一 个 或 者 多 个 简单 设备 ， 如 PC、 笔记 本 型 电脑 、 平 板 电 脑 及 手机 
等 ， 作 为 访问 云 (也 就 是 数据 中 心 ) 的 用 户 界 面 ， 而 所 有 用 户 的 相片 、 视 频 、 音 乐 和 其 他 数 
据 等 都 存放 在 云 中 。 在 这 种 模式 下 ,用户 可 以 通过 不 同 的 设备 在 任何 时 间 、 任 何 地 点 访问 数 
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据 ， 而 不 需要 知道 数据 到 底 存 放 在 什么 地 方 。 尽 管 许多 服务 器 构成 的 数据 中 心 代 替 了 单个 的 
集中 式 主机 ， 但 计算 模式 回 到 了 从 前 : 用 户 使 用 简单 的 终端 ， 计 算 能 力 集中 在 其 他 地 方 。 
谁 知道 这 种 模式 又 能 流行 多 长 时 间 呢 ? 也 许 刚好 是 10 年 。 由 于 太 多 的 人 把 太 多 的 歌曲 、 
相片 和 视频 存放 在 云 中 ， 而 使 与 之 相连 的 ( 无线 ) 通信 设施 完全 阻塞 。 这 又 会 导致 一 场 新 的 
革命 : 人 们 把 自己 的 数据 存放 在 本 地 的 个 人 计算 机 中 ， 这 样 就 避免 了 云 上 的 拥堵 。 
这 里 关键 的 信息 就 是 : 特定 时 代 下 流行 的 计算 模式 与 当时 的 技术 、 经 济 和 可 以 获得 的 应 
用 密切 相关 ， 当 这 些 要 素 改变 时 ， 计 算 模式 也 会 随 之 改变 。 , 


1.3.8 大 型 主机 


再 进一步 就 是 大 型 计算 机 了 ， 有 一 个 房间 那么 大 ， 听 起 来 好 像 回 到 了 20 世纪 60 年 代 。 
许多 情况 下 ， 这 些 机 器 都 可 以 说 是 几 十 年 前 生产 的 IBM 360 的 直接 后 代 。 对 于 多 数 方面 ， 它 
们 不 比 高 性 能 的 服务 器 快 ， 但 通常 有 更 强 的 输入 /输出 能 力 ， 并 装 有 海量 磁盘 ， 经 常 保存 着 
几 TB 的 数据 。 虽 然 大 型 计算 机 十 分 昂贵 ， 但 由 于 在 软件 上 的 巨额 投资 ， 以 及 数据 、 操 作 流 
程 和 使 用 者 个 人 等 多 方面 因素 ， 它 们 目前 还 在 继续 运行 。 许 多 公司 发 现 ， 偶 尔 花 上 几 百 万 美 
元 买 一 台新 机 器 ， 比 起 考虑 一 下 在 小 型 机 器 上 重 编 那 些 应 用 程序 而 造成 的 影响 ， 还 是 买 大 型 
主机 便宜 。 

正 是 这 类 计算 机 造成 了 现在 著名 的 2000 年 问题 。20 世纪 60 年 代 和 20 世纪 70 FR, (E 
要 是 COBOL) 程序 员 ( 为 了 节省 内 存 ) 用 两 位 十 进 制 位 表示 年 份 ， 他 们 从 来 没有 预想 到 他 们 
的 软件 能 历经 三 、 四 十 年 的 运行 。 当 然 ， 预 计 会 出 现 的 这 个 灾难 经 过 业界 艰苦 的 努力 终于 得 
以 避免 ， 但 许多 公司 简单 地 向 年 份 上 加 上 两 位 十 进 制 位 来 解决 这 个 问题 ， 又 重复 了 这 个 错误 。 
作者 在 此 大 胆 预言 文明 将 在 9999 年 12 月 31 日 的 午夜 终结 ， 那 时 ， 历 经 了 8000 年 的 COBOL 
程序 将 同时 前 滥 。 

除了 用 于 运行 有 40 年 历史 的 旧 软 件 外 ， 互 联网 使 大 型 机 又 呼吸 到 了 一 些 新 鲜 空气 ， 大 型 
机 在 作为 高 性 能 的 互联 网 服务 器 上 找到 了 用 武之 地 。 例 如 ， 用 于 处 理 每 秒 钟 数量 巨大 的 电子 
商务 交易 ， 尤 其 是 需要 面 对 海量 数据 库 业 务 的 时 候 。 

直到 最 近 ， 才 出 现 了 一 类 甚至 比 大 型 机 性 能 还 强大 的 计算 机 : 超级 计算 机 。 它 们 有 多 个 
特别 快 的 CPU， 几 G 的 主 存 和 极 快 的 硬盘 和 网 络 。 超 级 计算 机 用 来 解决 科学 和 工程 中 计算 强 
度 非常 大 的 问题 ， 如 模拟 银河 系 的 碰撞 、 合 成 新 药 及 飞机 机 辟 周 围 气 体 的 建 模 等 问题 。 然 而 ， 
这 几 年 ， 用 商业 机 组 成 的 数据 中 心 已 经 可 以 用 更 低 的 价格 提供 相同 的 计算 能 力 ， 纯 粹 的 超级 
计算 机 已 经 成 为 垂死 的 物种 了 。 


1.4 系列 计算 机 举例 


本 书 我 们 将 关注 3 类 流行 的 指令 集体 系 结构 (ISA): x86、ARM 和 AVR。x86 架构 可 以 
在 几乎 所 有 的 个 人 计算 机 (包括 Windows Ail Linux 的 PC LAR Mac) 和 服务 器 系统 中 发 现 ， 
个 人 计算 机 的 入 先是 由 于 每 位 读者 都 毫 无 疑问 地 用 着 一 台 ， 服 务 器 的 人 选 是 因为 它们 运行 着 
互联 网 上 的 所 有 服务 。 而 移动 市 场 上 ，ARM 体系 结构 占据 了 主流 位 置 ， 大 多 数 的 智能 手机 和 
平板 电脑 都 是 基于 ARM 处 理 器 的 。 最 后 ， 在 许多 和 能 入 式 计算 应 用 中 所 用 到 的 低 端 微 控 制 器 ， 
经 常 能 看 到 AVR 体系 结构 的 踪迹 。 虽 然 用 户 见 不 到 嵌入 式 计 算 机 ， 但 它们 实际 上 控制 着 汽 
车 、 电 视 机 、 微 波 炉 、 洗 衣 机 及 所 有 的 价值 超过 50 美元 的 电器 。 本 节 我 们 将 简单 介绍 这 三 种 
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指令 集体 系 结构 ， 它 们 会 在 本 书 其 他 章节 中 作为 具体 实例 。 
1.4.1 x86 体系 结构 简介 


1968 年 ， 硅 介质 集成 电路 的 发 明 者 Robert Noyce， 因 Moore 定律 著名 的 Gordon Moore 
和 旧金山 风险 投资 家 Arthur Rock 共同 组 建 了 Intel 公司 ， 生 产 内 存 芯片 。 公 司 成 立 的 第 一 
年 ，Intel 只 售 出 了 价值 3000 美元 的 芯片 ， 但 业务 就 从 这 里 起 步 ( Intel 公司 目前 是 世界 最 大 的 
CPU 芯片 制造 商 )。 

20 世纪 60 年 代 后 期 ， 计 算 器 还 是 一 种 大 型 机 电 设备 ， 大 小 和 现在 的 激光 打印 机 差不多 ， 
重大 约 20 公斤 。1969 年 9 月， 一 家 日 本 公司 Busicom 向 Intel 定制 了 12 片 用 于 研制 电子 计 
算 器 的 芯片 。 接 受 这 个 项 目的 Intel 工程 师 Ted Ho 任 分 析 方 案 后 提出 他 可 以 用 单 片 通用 的 CPU 
来 实现 同样 的 功能 ， 还 能 简化 设计 ， 降 低 成 本 。 这 样 ， 第 一 片 单 片 CPU， 具 有 2300 个 晶体 
管 的 4004 在 1970 年 诞生 了 (Faggin 等 ，1996 )。 

值得 注意 的 是 mtel 和 Busicom 都 没有 对 这 件 事情 有 更 多 的 想法 。 当 Intel 决定 在 另外 一 
个 项 目 中 试 着 用 4004 Ht, Intel 提出 归还 Busicom 付 的 60 000 美元 来 从 Busicom 买 回 新 芯片 
的 所 有 权利 ，Busicom 很 快 就 同意 了 。Intel 公司 开始 研制 该 芯片 的 8 位 型 号 ， 也 就 是 8008， 
并 在 1972 年 推出 。 图 1-11 给 出 了 从 4004 及 8008 开始 的 Intel 系列 芯片 的 简单 介绍 ， 包 括 推 
出 的 时 间 、 主 频 、 唱 体 管 数量 及 可 寻 址 空间 大 小 。 
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图 1-11 Intel CPU 系列 的 重要 成 员 。 主 频 单 位 为 MHz ( 兆赫 效 )，1MHz=1 百 万 赫兹 


Intel 对 8008 的 市 场 需求 量 并 没有 预期 太 高 ， 为 它 建立 的 生产 线 产 量 也 不 高 。 出 乎 意料 
的 是 各 界 对 8008 都 很 感 兴趣 ，Intel 也 着 手 设计 新 的 CPU 芯片 ， 突 破 8008 的 16KB 内 存 的 限 
制 〈 通 过 改变 芯片 管 脚 数 )， 由 此 产生 了 8080， 于 1974 年 推出 。 这 是 一 个 更 小 、 更 通用 的 芯 
Fro Al PDP-8 类 似 ，8080 在 计算 机 行业 产生 了 麦 动 效 果 ， 而 且 立 即 成 为 市 场 上 的 宠儿 。 唯 一 
不 同 的 是 ，DEC 销售 了 几 千 台 PDP-8， 而 Intel 销售 了 九 百 万 片 8080。 


EL a 


到 1978 Æ, Intel 推出 了 8086， 真 正 的 单 片 16 位 CPU. 8086 虽然 是 参照 8080 设计 ， 但 
并 不 完全 兼容 8080。8086 后 出 现 了 8088， 和 8086 的 体系 结构 相同 ， 运 行 的 程序 也 一 样 ， 但 
用 8 位 总 线 代 替 16 位 总 线 ， 使 它 比 8086 慢 ， 但 却 更 便宜 一 些 。 当 IBM 选择 8088 作为 最 初 
的 IBM PC 的 CPU 时 ，8088 很 快 成 了 个 人 计算 机 的 工业 标准 。 

8086 和 8088 都 无 法 寻 址 超过 IMB 的 内 存 , 到 20 世纪 80 年 代 早期 ， 这 越 来 越 成 为 一 个 
严重 问题 。Intel 及 时 推出 了 80286， 和 8086 向 上 兼容 。 它 的 基本 指令 集 几 乎 和 8086, 8088 
完全 相同 ， 但 内 存 组 织 有 很 大 的 差别 ， 而 且 由 于 要 兼容 老 芯 片 ， 访 问 内 存 变 得 很 复杂 。80286 
用 在 IBM PC/AT 和 PS/2 的 中 期 型 号 中 ， 和 8088 一 样 取得 了 巨大 的 成 功 ， 主 要 原因 就 是 大 家 
都 把 它 看 成 一 个 快速 的 8088。 

1985 年 诞生 的 80386 在 逻辑 上 是 一 个 大 进步 ， 它 是 真正 的 32 位 单 片 CPU。 和 80286 相 
同 ， 它 或 多 或 少 地 和 8080 系列 芯片 兼容 。 这 种 向 后 兼容 的 方式 对 那些 旧 软 件 对 其 十 分 重要 的 
客户 来 说 是 一 个 福音 ,但 对 那些 不 愿意 纠缠 于 旧版 本 错误 和 过 时 技术 ， 喜欢 简单 、 清 晰 和 现 
代 体 系 结构 的 客户 来 说 就 成 了 累 歼 。 

四 年 后 80486 也 出 现 了 。 本 质 上 说 它 只 是 80386 更 快 的 版 本 ， 世 片 中 增加 了 浮 点 处 理 部 
件 和 8KB 高 速 缓存 。 高 速 缓存 用 来 在 CPU 内 部 或 靠近 CPU 的 地 方 存放 最 常用 的 内 存 字 ， 以 
避免 (或 减少 ) 内 存 访问 。80486 可 支持 内 置 多 处 理 器 ， 人 允许 生产 厂商 研制 包含 共享 公共 内 
存 的 多 CPU 系统 。 

这 时 ，Intel 发 现 ( 因为 没有 商标 对 诉讼 不 利 ) 数字 (如 80486) 无 法 注册 为 商标 ， 这 
才 为 新 研制 的 芯片 起 了 名 字 Pentium ( 来自 希腊 字 “5”，xevte )。 和 只 有 二 条 内 部 流水 线 的 
80486 不 同 ，Pentium 有 两 条 流水 线 ， 使 它 的 速度 也 相应 快 了 两 倍 (我 们 将 在 第 2 章 讨论 流水 
线 的 细节 )。 

到 Pentium 系列 后 期 ，Intel 为 它 增 加 了 一 些 特殊 的 MMX (MultiMedia eXtension， 多 媒 
体 扩展 ) 指令 ， 和 希望 以 此 来 加 速 有 关 语 音 和 视频 处 理 的 计算 速度 ， 也 替代 了 原来 的 设置 专门 
的 多 媒体 协 处 理 器 的 方案 。 

当 更 新 的 一 代 芯 片 出 现时 ， 和 希望 出 现 Sexium (sex 是 拉丁 语 的 “6”) 人 们 失望 了 ， 由 
于 Pentium 这 个 名 字 如 此 深入 人 心 ， 市 场 营销 方面 的 人 士 希 望 保留 ， 新 世 片 的 名 字 被 定 为 
Pentium Pro。 尽 管 只 在 名 称 上 做 了 点 小 改动 ， 但 新 的 处 理 器 在 很 大 程度 上 宣布 了 旧 处 理 器 时 
代 的 结束 。Pentium Pro 采用 了 完全 不 同 的 内 部 结构 ， 可 以 同时 执行 五 条 指令 ， 而 不 再 是 增加 
一 条 或 几 条 流水 线 的 概念 。 

Pentium Pro 的 另外 一 项 革新 是 两 级 高 速 缓存 。 处 理 器 芯片 本 身 有 SKB 的 高 速 存储 器 来 
存放 最 常 使 用 的 指令 ， 另 外 8KB 的 高 速 存 储 器 来 存放 最 常 使 用 的 数据 。 在 Pentium Pro 包 的 
同一 插 模 中 【〔 但 不 在 芯片 中 ) 还 有 256KB 的 二 级 高 速 缓存 。 

虽然 Pentium Pro 拥有 了 大 容量 的 高 速 缓存 ， 但 却 缺 少 了 MMX 指令 (AX Intel 当时 
无 法 在 可 接受 的 利润 水 平 下 生产 出 如 此 大 的 芯片 )。 当 技术 成 熟 以 使 MMX 指令 和 高 速 缓存 
可 以 在 一 个 芯片 上 共存 时 ，Intel 推出 了 新 的 产品 Pentium II。 随 后 ， 为 增强 3D 图 形 处 理 能 
JI (Raman 等 ，2000 )， 而 拥有 更 多 的 多 媒体 指令 ， 即 SSE (Streaming SIMD Extensions, jit 
SIMD 扩展 ) 被 加 入 到 指令 集 。 这 种 新 的 芯片 被 命名 为 Pentium II， 但 从 本 质 上 说 ， 它 还 是 
Pentium II. 

2000 4F 11 月 推出 的 下 一 个 Pentium 采用 了 不 同 的 内 部 体系 结构 ， 但 指令 集 和 以 前 的 
Pentium 保持 相同 。 为 庆祝 这 一 事件 ，Intel 把 芯片 名 称 中 的 罗马 数字 改 为 阿拉 伯 数 字 ， 称 其 为 
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Pentium 4。 与 往常 一 样 ，Pentium 4 比 它 所 有 的 前 辈 们 都 要 快 。 而 且 ，3.06GHz 的 版 本 还 引入 
一 个 十 分 有 吸引 力 的 新 特征 超 线程 。 该 特征 允许 程序 把 它们 的 任务 分 解 成 两 个 控制 线 
程 ， 这 样 ，Pentium 4 可 以 并 行 执行 这 两 个 线程 ， 以 提高 程序 执行 的 速度 。 另 外 ， 增 加 了 一 批 
新 的 SSE 指令 ， 更 提高 了 它 处 理 语音 和 视频 的 能 力 。 
2006 Æ, Intel 将 品牌 名 称 由 Pentium 改 为 Core( BEA), FEEL RAK HY Core 2 ( Core 2 
duo )。 当 Intel 决定 需要 推出 一 个 单 核 的 Core 芯片 时 ， 它 采取 的 策略 是 卖 给 客户 一 个 Core 2 
duo， 但 把 其 中 的 一 个 核 给 关闭 ， 不 让 其 工作 。 因 为 即使 是 在 每 个 芯片 上 浪费 一 些 晶体 管 ， 比 
起 从 头 设计 和 测试 一 个 全 新 的 芯片 所 要 付出 的 昂贵 成 本 也 要 便宜 许多 。Core 系列 也 在 不 断 发 
展 , 已 经 有 i3、i5 和 订 分 别 应 对 低 、 中 、 高 三 个 档次 的 计算 机 ， 而 且 肯 定 还 会 有 后 继 产 品 出 
现 。 图 1-12 是 i7 的 一 张 照片 。 该 芯片 实际 上 有 8 个 核 , 但 除了 Xeon 版 ， 只 有 其 中 的 6 个 是 
工作 的 。 这 也 意味 着 即使 有 1 ~ 2 个 核 损 坏 ， 该 芯片 也 依然 可 以 销售 ， 只 需要 把 坏 的 核 禁 掉 
即 可 。 每 核 都 有 自己 的 1 级 和 2 级 高 速 缓 存 ， 芯 片上 还 有 第 3 级 (13 ) 的 缓存 供 所 有 核 共 享 。 
本 书 的 后 续 章 节 将 详细 讨论 高 速 缓存 。 








图 1-12 Intel Core i7-3960X its. RH Rob 21mm x 21mm， 有 22.7 亿 个 晶体 管 。 照 片 版 权 属 于 
Intel，2011。 本 书 得 到 使 用 授权 


除了 前 面 讨论 的 主流 桌面 系统 的 CPU 外 ，Intel 还 为 特定 的 一 些 市 场 需求 生产 一 些 
Pentium 芯片 的 变种 。1998 年 年 初 ，Intel 推出 了 赛 扬 (Celeron) 产品 系列 ， 实 际 上 是 价格 低 
廉 、 性 能 也 低 一 些 的 Pentium I， 以 满足 低档 PC 市 场 的 需要 。 由 于 Celeron Ail Pentium II 的 
体系 结构 相同 ， 本 书 不 对 它 进行 更 深入 的 探讨 。1998 年 6 月 ，Intel 为 高 档 PC 市 场 供 应 特殊 
版 本 至 强 ( Xeon )， 一 种 具有 更 大 容量 的 高 速 缓 存 、 更 快 的 总 线 、 更 好 地 支持 多 处 理 器 并 行 工 
作 的 Pentium II, HFEF Pentium 开 也 只 有 量 的 差别 ， 没 有 本 质 的 不 同 ， 本 书 也 不 作 单 独 介 
绍 。Pentium M 也 有 对 应 的 至 强 版 本 ， 更 近 推 出 的 蔚 片 也 有 。 最 近 推出 的 芯片 的 至 强 版 的 一 
个 特征 就 是 有 更 多 的 核 。 

2003 4F, Intel 推出 了 Pentium M ( M 代表 移动 )， 专 门 为 笔记 本 型 计算 机 设计 ， 并 部 分 
使 用 了 迅驰 (Centrino ) 体系 结构 。 迅 驰 的 主要 设计 目标 有 3 个 : 一 是 低能 耗 ， 以 延长 电池 的 
工作 时 间 ; 二 是 使 计算 机 体积 更 小 、 重 量 更 轻 ; 三 是 内 置 支持 IEEE 802.11 (Wi-Fi) 标准 的 
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无 线 网 络 。Pentium M HE Pentium 4 耗 能 低 、 体 积 小 ，Pentium M ( 及 它 的 后 续 产 品 ) 很 快 就 
会 在 今后 Intel 的 产品 中 纳入 到 Pentium 4 的 微 体 系 结构 中 。 

所 有 的 Intel 芯片 都 向 后 兼容 ， 直 到 8086。 换 名 话说 ，8086 的 程序 不 作 任何 改动 就 可 在 
Pentium 4 或 Core 上 运行 。 这 种 兼容 性 一 直 是 Intel 的 设计 要 求 ， 以 保护 用 户 在 已 有 软件 上 
的 投资 。 当 然 ，Core HE 8086 复杂 了 3 个 数量 级 ， 能 够 实现 许多 8086 不 能 实现 的 功能 。 这 
种 零碎 的 扩展 使 Pentium 4 在 体系 结构 上 也 许 不 如 用 4200 万 晶体 管 来 重新 设计 、 实 现 所 有 
BOR. 

有 趣 的 是 ， 虽 然 Moore 定律 与 存储 器 的 位 数 有 关 ， 但 它 同样 适用 于 CPU 芯片 。 图 1-8 将 
给 出 的 晶体 管 数 和 芯片 推出 时 间 分 别 作为 数 轴 ， 我们 可 以 看 到 和 Moore 定律 符合 得 很 好 ， 如 
图 1-13 所 示 。 
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图 1-13 CPU 芯片 的 Moore 定律 


虽然 Moore 定律 似乎 还 能 在 今后 的 几 年 中 保持 其 正确 性 ， 但 已 经 有 一 个 问题 开始 为 它 投 
上 了 阴影 ， 即 散热 问题 。 时 钟 频率 越 高 ， 要 求 电 源 的 电压 越 高 ， 章 体 管 数量 少时 还 可 以 承受 。 
而 能 耗 及 散热 量 与 电压 的 平方 成 正比 ， 因 此 ， 速 度 越 快意 味 着 需要 排出 的 热量 越 多 。3.6GHz 
主 频 的 Pentium 4 耗 能 115 瓦 ， 热 量 和 1 个 100 瓦 的 白炽 灯泡 相当 。 主 频 越 高 ， 问 题 将 变 得 越 
HRE 

2004 年 11 月 ， 由 于 散热 问题 ，Intel 终止 了 4GHz 的 Pentium 4 的 开发 。 当 然 ， 用 更 大 的 
风扇 也 许 能 改善 散热 ， 但 产生 的 噪音 肯定 不 会 受到 用 户 的 欢迎 ， 而 在 大 型 机 上 用 到 的 水 冷 技 
术 显 然 不 适合 在 桌面 计算 机 上 使 用 (更 不 用 说 笔记 本 型 计算 机 了 )。 因 此 ， 至 少 在 Intel 公司 
的 工程 师 找 到 有 效 解决 散发 机 器 产生 的 全 部 热量 的 办 法 之 前 ， 在 计算 机 主 频 上 的 无 情 竞争 似 
乎 已 经 结束 。 取 而 代 之 的 是 ，Intel 设计 将 两 个 或 更 多 的 CPU 放 到 一 片 芯片 中 ， 同 时 还 包含 大 
容量 的 共享 高 速 缓存 。 由 于 能 耗 和 电压 及 时 钟 速度 有 关 ， 放 有 两 个 CPU 的 单 片 芯片 的 能 耗 要 
远 低 于 只 有 一 个 CPU 但 工作 主 频 为 2 倍 的 芯片 。 照 此 思路 ，Moore 定律 将 来 保持 有 效 的 途径 
可 能 是 在 芯片 中 设计 更 多 的 核 和 更 大 的 片上 高 速 缓存 ， 而 不 是 越 来 越 高 的 时 钟 速度 。 如 何 充 
分 发 挥 多 核 的 优势 给 程序 员 提出 了 很 大 的 挑战 ， 因 为 现 有 的 编程 方法 针对 复杂 的 单 核 微 体 系 
结构 而 提高 程序 性 能 是 有 效 的， 但 多 核 要 求 程序 员 从 全 新 的 角度 考虑 编程 ， 通 过 精心 设计 程 
序 的 并 行 执 行 ， 利 用 线程 、 信 和 号 量 、 共 享 内 存 以 及 其 他 令 人 头痛 且 可 能 会 引入 错误 的 技术 来 
提高 程序 的 性 能 。 
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1.4.2 ARM 体系 结构 简介 


20 世纪 80 年 代 早 期 ， 设 立 在 英国 的 Acorn 计算 机 公司 ， 正 准备 借助 其 8 位 的 BBC 
Micro 个 人 计算 机 的 成 功 ， 开 始 设计 他 们 的 第 2 台 计 算 机 ， 并 满怀 希望 地 准备 和 刚 推 出 的 
IBM PC #4, BBC Micro 是 基于 8 位 的 6502 处 理 器 ， 但 Steve Furber 和 他 的 同事 们 感觉 到 
6502 并 没有 和 IBM PC 的 16 位 的 8086 处 理 器 竞争 的 能 力 。 他 们 开始 在 市 场 上 寻找 更 好 的 处 
Hir, (AZ RAIS ABE. 

Berkley 的 RISC 项 目 中 ， 一 个 精干 团队 设计 出 了 很 快 的 处 理 器 (并 最 终 发 展 成 SPARC 
体系 结构 )。 受 此 启发 ， 他 们 也 决定 设计 自己 的 CPU， 将 其 命名 为 ARM (Acron RISC 
Machine， 后 来 ， 当 ARM 最 终 从 Acorn 分 开 时 ， 改 为 Advanced RISC Machine )。1985 年 ， 设 
计 工 作 完成 , 该 CPU 有 32 位 的 指令 和 数据 ，26 位 的 寻 址 空间 ， 由 VLSI 技术 公司 生产 。 

第 一 片 ARM 体系 结构 蕊 片 ( 称 为 ARM2) 用 在 Acorn Archimedes 个 人 计算 机 中 ， 在 那 
个 时 候 ，Archimedes 是 一 台 速 度 快 且 价格 低廉 的 计算 机 ， 最 快 的 速度 可 达 2 MIPS ( 每 秒 百 万 
条 指令 )， 发 布 的 时 候 价格 仅 为 899 英镑 。 该 机 在 英国 、 爱 尔 兰 、 澳 大 利 亚 和 新 西 兰 十 分 流 
行 ， 尤 其 是 在 学 校 中 。 

由 于 Archimedes 的 成 功 ，Apple 让 Acron 为 其 新 产品 一 一 第 一 台 掌 上 电脑 Apple Newton 
开发 ARM 处 理 器 。 为 更 好 地 专注 于 这 个 项 目 ，ARM 体系 结构 团队 离开 Acorn， 创 建 了 一 
个 新 公司 ， 名 为 ARM (Advanced RISC Machines， 高 级 RISC 机 器 )。 他 们 推出 的 新 处 理 器 
ARM 610， 被 用 在 1993 年 推出 的 Apple Newton 中 。 和 最 初 的 ARM 设计 不 同 ， 新 的 ARM 处 
理 器 配备 了 4KB 的 高 速 缓存 ， 极 大 地 提高 了 处 理 器 的 性 能 。 尽 管 Apple Newton 并 没有 取得 
很 大 的 成 功 ， 但 ARM 610 确实 得 到 了 成 功 的 应 用 ， 如 在 Acron 的 RISC PC 计算 机 中 。 

20 世纪 90 年 代 中 期 ，ARM 和 数字 设备 公司 DEC 合作 ， 开 发 了 一 款 高 速度 、 低 能 耗 的 
ARM 芯片 ， 以 用 于 能 量 敏 感 的 移动 应 用 场合 ， 如 PDA 等 。 他 们 生产 出 StrongARM, KH 
时 就 以 其 高 速度 (233MHz ) 和 极 低 的 能 耗 (1 瓦 ) 给 整个 行业 带 来 了 巨大 的 冲击 ， 分 别 配备 
有 16KB 数据 和 指令 高 速 缓存 的 简单 、 清 晰 设计 带 来 了 如 此 的 效能 。StrongARM 以 及 同 DEC 
一 起 推出 的 后 续 芯 片 在 市 场 上 表现 还 算 成 功 ， 可 以 在 许多 的 PDA、 机 顶 盒 、 媒 体 设备 和 路 由 
器 中 发 现 它们 的 身影 。 

ARM 系列 芯片 中 ， 最 值得 一 提 的 是 ARM7， 首 次 于 1994 年 推出 ， 到 今天 还 被 广泛 使 用 。 
该 芯片 有 相互 独立 的 指令 高 速 缓存 和 数据 高 速 缓存 ， 并 支持 16 位 的 Thumb 指令 集 。Thumb 
指令 集 是 32 位 ARM 指令 集 的 缩短 版 ， 可 以 供 程序 员 把 许多 最 常用 的 操作 编码 成 短小 的 16 
位 指令 ， 以 大 幅度 减少 程序 的 存储 空间 。ARM7 在 许多 中 低档 的 符 入 式 应 用 中 表现 出 色 ， 如 
烤箱 、 发 动机 控制 器 等 ， 甚 至 还 包括 任天堂 的 Gameboy Advance 便携 式 游戏 机 。 

和 多 数 其 他 的 计算 机 公司 不 同 ，ARM 没有 直接 生产 自己 的 任何 一 款 微 处 理 器 ， 而 只 是 
产生 详细 的 设计 方案 ， 以 及 基于 ARM 的 开发 工具 和 库 孔 数 ， 并 把 它们 授权 给 系统 设计 和 芯 
片 制 造 厂商 生产 。 例 如 ， 在 基于 Android 的 三 星 Galaxy Tab 平板 电脑 中 用 的 CPU 就 是 一 个 
ARM 处 理 器 ， 即 Tegra 2 片上 系统 处 理 器 ， 其 中 有 两 个 ARM Cortex-A9 人 处理 器 和 一 -个 英 伟 达 
显卡 。Tegra 2 的 核心 由 ARM 设计 ， 集 成 到 英 伟 达 设 计 的 片上 系统 ， 最 后 由 台湾 半导体 制造 
公司 (TSMC) 生产 。 这 是 一 个 不 同 国家 或 地 区 公司 合作 的 典范 ， 参 与 设计 的 公司 都 为 最 终 
的 产品 设计 贡献 了 自己 的 价值 . 

图 1-14 是 英 伟 达 的 Tegra 2 片上 系统 蕊 片 的 照片 。 该 设计 中 包含 3 个 ARM 处 理 器 : 2 个 
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1.2GHz ARM Cortex-A9 核 和 1 个 ARM7 4%. Cortex-A9 核 是 双 发 射 乱 序 执行 的 核 ， 配 有 1MB 
的 工 2 级 高 速 缓存 ， 并 可 支持 多 处 理 器 共享 内 存 。( 这 里 出 现 了 许多 术语 ， 我 们 会 在 后 面 详细 
了 解 。 现 在 只 需要 知道 这 些 特性 能 让 芯片 快速 运行 ! )ARM7 核 相对 比较 老 旧 ， 也 是 一 个 小 核 ， 
这 里 主要 用 来 进行 系统 配置 和 能 量 管理 。 图 形 核 是 为 低能 耗 操 作 优化 过 的 333MHz GeForce 图 
形 处 理 单元 (GPU )。Tegra 2 上 还 集成 了 视频 编 /解码 器 、 音 频 处 理 器 和 HDMI 视频 输出 接口 。 






图 1-14 英 伟 达 Tegra 2 片上 系统 。 版 权 由 英 伟 达 公司 所 有 ， 已 获 授权 使 用 


ARM 体系 结构 在 低能 耗 、 移 动 和 骨 入 式 市 场 上 取得 了 很 大 成 功 。2011 年 1 月 ，ARM 定 
布 自 成 立 以 来 已 经 销售 超过 150 亿 ARM 处 理 器 芯片 ， 且 销售 量 还 在 持续 增长 。 在 适应 低 端 
市 场 要 求 的 同时 ，ARM 体系 结构 其 实 也 有 满足 其 他 任何 市 场 需要 的 计算 能 力 ， 有 迹象 表明 
这 种 能 力 正 在 血 露头 角 。 例 如 ，2011 年 10 月 ，ARM 宣布 了 其 64 位 产品 。2011 年 1 月 ， 英 
伟 达 宣布 了 “Denver 工程 ”， 即 开发 基于 ARM 的 面向 服务 器 和 其 他 市 场 的 片上 系统 ， 将 多 个 
64 位 ARM 处 理 器 和 一 个 通用 GPU (GPGPU ) 集成 到 一 起 。 该 设计 中 低能 耗 的 特点 将 有 助 于 
降低 数据 中 心 和 服务 器 群 的 散热 要 求 。 


1.4.3 AVR 体系 结构 简介 


我 们 的 第 3 个 例子 是 AVR 体系 结构 ， 与 第 1 个 (x86 体系 结构 ， 主 要 用 在 个 人 计算 机 和 
服务 器 上 ) 及 第 2 个 (ARM 体系 结构 ， 主 要 用 于 PDA 和 智能 手机 ) 有 很 大 的 不 同 ， 主 要 供 
非常 低 端的 做 人 式 系统 使 用 。AVR 的 故事 应 从 1996 年 的 挪威 技术 研究 所 讲 起 ， 在 这 里 ， 还 是 
学 生 的 Alf-Egil Bogen 和 Vegard Wollan 设计 了 一 个 名 为 AVR 的 8 位 RISC CPU， 据 说 命名 为 
AVR 的 原因 是 “这 是 (A ) If A CV) egard 的 (R)ISC 处 理 器 "。 设 计 完 成 后 不 久 ，Atmel 
公司 就 把 设计 买 过 来 并 创建 了 挪威 Atmel， 两 位 设计 师 继续 在 那里 完善 AVR 处 理 器 设计 。 
1997 年 ，Atmel 发 布 了 AVR 微 控 制 器 的 第 一 个 版 本 AT90S1200。 为 了 让 它 更 容易 被 系统 设计 
商 采 用 ， 他 们 把 AT90S1200 的 管 脚 设计 做 得 和 Intel 8051 完全 一 样 ， 而 Intel 8051 是 当时 市 场 
上 最 为 流行 的 微 处 理 器 。 现 在 ， 对 AVR 体系 结构 感 兴趣 的 人 更 多 了 ， 因 为 它 已 经 成 为 非常 流 
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行 的 开源 Arduino RRA SCF il APE BA UD a 

图 1-15 列 出 了 AVR 体系 结构 的 3 类 实现 ， 最 低档 的 一 类 ， 也 就 是 tinyAVR， 是 为 那些 空 
间 、 能 量 和 成 本 都 高 度 受 限 的 应 用 而 设计 的 。 它 包含 1 个 8 位 的 CPU， 最 基本 的 数字 输入 / 输 
出 ， 还 提供 对 模拟 信号 的 输入 的 支持 ( 例如 ， 从 温度 计 上 读 入 一 个 温度 值 )。tinyAVR 实在 是 
太 小 了 ， 其 管 脚 都 要 身 兼 二 职 ， 比 如 ， 可 以 在 运行 态 通过 重新 编程 改变 成 微 控制 器 支持 的 其 
他 数字 或 模拟 功能 。 第 2 类 是 megaAVR， 也 就 是 前 面 提 到 的 开源 散人 入 式 系统 Arduino 所 使 用 
的 控制 器 ， 增 加 了 串 行 IO 的 支持 ， 内 部 时 钟 和 可 编程 的 模拟 信号 输出 。 最 高 一 档 的 是 AVR 
XMEGA 微 控 制 器 ， 增 加 了 完成 加 /解密 的 加 速 器 ， 并 内 置 了 对 USB 接口 的 支持 。 
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FA 1-15 AVR 系列 的 微 处 理 器 分 类 


除了 可 连接 各 种 外 部 设备 外 ， 每 类 AVR 处 理 器 都 包含 了 一 些 附 加 的 存储 资源 。 每 块 微 
处 理 器 板 上 有 三 种 类 型 的 存储 器 : Flash, EEPROM 和 RAM。 使 用 外 部 的 接口 和 高 电 平 可 对 
Flash 存储 器 编程 ， 这 也 是 微 处 理 器 存放 程序 代码 和 数据 的 地 方 。Flash 随机 存储 器 具有 非 电 
易 失 性 ， 系 统 掉 电 后 也 能 记 住 存放 的 内 容 。 和 Flash 类 似 ，EEPROM 也 是 非 电 易 失 性 的 ,不 
同 的 是 在 运行 时 它 的 内 容 可 以 通过 编程 模式 修改 。 骨 人 式 系统 可 以 把 用 户 的 配置 信息 等 存放 
在 EEPROM 中 ， 比 如 曾 钟 按 12 小 时 还 是 24 小 时 的 格式 显示 时 间 等 。 最 后 ，RAM 是 程序 运 
行 时 存放 变量 的 地 方 ， 它 具有 电 易 失 性 ， 也 就 是 说 ， 存 放 在 这 儿 的 信息 在 系统 掉 电 时 会 丢失 。 
我 们 会 在 第 2 章 详细 研究 电 易 失 性 和 非 电 易 失 性 RAM 类 型 。 

在 微 控 制 器 市 场 中 取得 成 功 的 秘诀 就 是 要 把 它 可 能 需要 的 任何 功能 都 塞 进 芯 片 中 (厨房 
的 水 槽 也 是 这 样 ， 如 果 它 能 缩小 到 1 平方 毫米 大 小 的 话 )， 再 把 它 打 包 成 只 有 少量 管 脚 的 廉价 
的 小 包装 。 将 更 多 的 功能 集成 到 微 处 理 器 中 会 让 它 有 更 多 的 应 用 ， 而 让 其 小 型 化 并 廉价 ， 则 
可 让 它 能 放置 在 更 多 的 场合 。 为 了 对 现代 的 微 处 理 器 中 集成 了 哪些 功能 有 个 感性 认识 ， 我们 
来 看 看 Atmel megaAVR-168 中 包括 了 哪些 外 部 设备 : 

1) 3 个 计时 器 (2 个 8 位 的 和 1 个 16 位 的 )。 

2) 带 晶 振 的 实时 时 钟 。 

3 ) 6 个 脉冲 宽度 调节 器 通道 ， 用 于 控制 灯 的 亮度 或 马达 的 速度 等 。 

4) 8 个 模 / 数 转换 通道 用 于 电压 值 的 读 取 。 

5 ) HARTKE Ro 

6) PC 串 行 接口 ， 一 个 常用 的 传感器 接口 标准 。 

7) 可 编程 的 看 门 狗 计 时 器 ， 用 于 检测 系统 什么 时 候 被 锁 住 。 

8) 片上 模拟 信号 比较 器 ， 用 于 比较 两 个 输入 电压 。 

9 ) 掉 电 检测 器 ， 可 在 电源 故障 时 中 断 系统 。 

10) 内 部 可 编程 时 钟 晶振 ， 用 于 驱动 CPU 时 钟 。 


1.5 公制 计量 单位 
为 避免 混淆 ， 我 们 在 这 里 明确 指出 ， 本 书 中 所 采用 的 计量 单位 和 计算 机 科学 领域 通常 采 
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用 的 一 样 是 公制 计量 单位 系统 ， 而 不 是 传统 的 英 式 计量 单位 系统 ( furlong-stone-fortnight 系 
统 )。 图 1-16 列 出 了 主要 的 一 些 公制 单位 的 名 称 ， 一 般 可 用 它们 的 首 字母 缩写 ， 计 量 单位 超 
过 1 的 缩写 变 为 大 写 (KB、MB 等 )。 由 于 历史 原因 ， 有 一 个 例外 是 kbps 代表 1000 位 / 秒 。 
这 样 ，1-Mbps 的 通信 线 每 秒 传输 10° 位 ，100-ps 的 时 钟 每 10" 秒 跳 动 一 次 。 由 于 训 (milli) 
和 微 (micro) HAFIR “m, UWR EARKI. RRF, H “m RRE, M 
用 “hh”( 希腊 字母 mu ) 表示 微 。 


ee 
ta 
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图 1-16 主要 公制 计量 单位 表 


还 值得 指出 的 是 ， 作 为 业界 实际 使 用 的 惯例 ， 计 量 内 存 、 磁 盘 、 文 件 和 数据 库 大 小 的 单 
位 与 上 图 有 点 细小 的 差别 。 在 这 些 场 合 ， 千 (kilo ) 表示 2" 而 不 是 10; ( 1000 )， 因 为 存储 
容量 总 是 2 的 过 。 也 就 是 说 ，1KB 内 存 包 含 1024 个 字 节 ， 并 不 是 1000 字 节 。 同 样 ，1MB 
内 存 表示 2”(1048576) 字 节 ,1GB 包 含有 2”(1073741824) 字 节 ，1TB 包 含有 24 
(1099 511 627 776) 字 节 。 

但 是 ，1kbps 通信 线 的 传输 速度 是 1000 位 / 秒 ，10Mbps 的 局 域 网 的 速度 是 10 000 000 位 / 
秒 ， 因 为 这 些 速度 指标 并 不 是 2 的 寡 。 遗 憾 的 是 ， 许 多 人 容易 把 这 两 个 事情 和 弄 混 ， 尤 其 是 计 
算 磁 盘 大 小 的 时 候 。 

为 清晰 起 见 ， 标 准 化 组 织 引 入 了 新 的 术语 kibibyte 来 表示 2" 字 节 ，mebibyte 来 表示 2” 


， 字 节 ，gibibyte 来 表示 2” 字 节 ，tebibyte 来 表示 2” 字 节 ， 但 工业 界 采用 这 个 标准 的 行动 迟缓。 


我 们 认为 在 这 些 新 术语 得 到 广泛 使 用 前 ， 最 好 还 是 沿用 KB、MB、GB 和 TB 这 些 单位 来 分 别 
表示 2"*、2”、2”、2% 字 节 ， 用 kbps、Mbps、Gbps 和 Tbps 这 些 单位 来 分 别 表示 10°, 10°, 
10°, 102 位 / 秒 。 


1.6 ABR 


本 书 主要 讲述 多 层次 计算 机 (几乎 包含 了 所 有 现代 计算 机 ) 及 它们 的 组 成 。 我 们 将 详细 
讨论 其 中 的 4 层 ， 即 数字 逻辑 层 、 微 体系 结构 层 、 指 令 系统 层 和 操作 系统 层 。 要 讨论 的 基本 
问题 包括 每 层 的 总 体 设计 〈 以 及 为 什么 这 样 设计 )、 指 令 类 型 和 数据 类 型 、 内 存 组 织 和 寻 址 方 
式 以 及 该 层 功 能 的 实现 方法 。 对 这 些 以 及 类 似 问 题 的 研究 称 为 计算 机 组 成 或 计算 机 体系 结构 。 

我 们 主要 关心 的 是 上 述 问题 中 的 概念 ， 而 不 是 其 中 的 细节 或 严格 的 数学 推导 。 为 此 ， 我 
们 将 对 某 些 例子 进行 高 度 简 化 ， 以 强调 中 心思 路 而 略 去 细节 。 

为 使 读者 能 更 好 地 认识 书 中 的 原理 如 何 应 用 到 实际 当中 ， 本 书 贯穿 始终 地 用 x86、ARM 
和 AVR 体系 结构 作为 实例 ,来 讲解 这 三 种 芯片 是 如 何 应 用 书 中 的 原理 的 。 选 择 这 些 芯 片 有 如 
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下 一 些 原因 。 首 先 ， 它 们 都 是 应 用 广泛 的 芯片 ， 读 者 应 该 至 少 接触 过 其 中 一 种 ; 其 次 ， 它 们 
都 有 自己 独特 的 体系 结构 ， 为 读者 提供 了 对 比 的 基础 ， 也 可 以 鼓励 读者 提出 “其 他 芯片 是 如 
何 的 呢 ” 等 类 似 问 题 。 针 对 一 种 机 型 的 书 容 易 使 读者 形成 “计算 机 就 该 这 样 设计 ”的 感觉 ， 
而 无 法 体会 到 设计 者 不 得 不 面 对 的 选择 和 妥协 。 我 们 鼓励 读者 用 批判 的 眼光 来 研究 这 三 种 机 
型 和 所 有 其 他 计算 机 ， 这 样 才 能 在 了 解 它 们 是 怎样 有 了 这 些 区 别 的 基础 上 知 其 所 以 然 ， 而 不 
仅 是 简单 接受 书本 给 出 的 东西 。 

需要 在 本 书 开 始 时 澄清 的 是 ,本 书 并 不 是 一 本 关于 如 何在 x86、ARM 和 AVR 体系 结构 
上 编程 的 书 。 这 三 种 机 型 只 是 在 必要 时 用 于 举例 ， 本 书 无 意 伪 装 成 它们 的 大 全 。 和 希望 彻底 了 
解 它们 的 读者 可 以 和 它们 的 制造 商 联系 。 

第 2 章 介 绍 了 计算 机 的 基本 组 成 部 件 一 一 处 理 器 、 存 储 器 和 输入 /输出 设备 。 希 望 能 给 
出 计算 机 系统 体系 结构 的 全 貌 并 引出 后 续 章 节 。 

第 3、4、5、6 章 每 章 讲述 图 1-2 中 的 一 层 ， 顺 序 是 自 底 向 上 ， 因 为 习惯 上 计算 机 就 是 这 
样 设计 的 。 由 于 第 层 的 设计 很 大 程度 上 依赖 于 第 k-1 层 的 属性 ， 所 以 如 果 不 了 解 低层 ， 也 
就 无 法 理解 上 一 层 。 而 且 ， 从 教育 学 的 角度 看 ， 也 应 该 是 从 较 简单 的 低层 开始 ， 逐 步 到 较 复 
杂 的 高 层 ， 而 不 是 相反 。 

第 3 章 的 内 容 是 数字 逻辑 层 ， 是 真正 的 计算 机 硬件 。 本 章 讨论 了 什么 是 逻辑 门 ， 且 它们 
如 何 组 成 有 用 的 电路 ; 介绍 了 分 析 数 字 电 路 的 有 用 工具 一 一 布尔 代数 ; 解释 了 总 线 的 概念 ， 
突出 介绍 了 当前 流行 的 PCI 总 线 。 本 章 列 举 了 许多 来 自 工 业界 的 实例 ， 包 括 上 面 提 到 的 三 种 
机 型 。 

第 4 章 介 绍 微 体系 结构 层 及 其 控制 电路 。 由 于 本 层 的 主要 功能 是 解释 第 2 层 的 指令 ， 本 
章 将 通过 举例 详细 介绍 ， 同 时 也 讨论 几 种 真正 计算 机 的 微 体 系 结构 层 。 

第 5 章 讨论 指令 系统 层 ， 多 数 计算 机 供应 商 在 广告 上 把 这 层 叫 做 机 器 语言 。 我 们 将 在 这 
一 章 详细 介绍 我 们 用 于 举例 的 机 型 。 

第 6 章 覆 盖 了 操作 系统 层 中 的 一 些 指令 、 内 存 组 织 和 控制 机 制 。 本 章 举 的 例子 包括 
Windows 操作 系统 ( 流行 于 基于 x86 的 桌面 计算 机 系统 ) 和 在 许多 基于 x86 Al ARM 机 器 上 
运行 的 UNIX。 

第 7 章 是 关于 汇编 语言 层 的 ， 包 括 汇编 语言 和 汇编 的 过 程 。 连 接 的 概念 也 在 此 介绍 。 

第 8 章 讨 论 并 行 计算 机 ， 目 前 十 分 重要 的 研究 领域 。 有些 并 行 计算 机 是 拥有 共享 公共 
内 存 的 多 CPU， 有 些 却 只 有 多 CPU 而 没有 公共 内 存 ; 有 些 是 超级 计算 机 ， 有 些 是 片上 系统 
(SOC )， 其 他 的 是 集群 工作 站 。 

第 9 章 是 本 书 引 用 的 文献 ， 按 字符 顺序 排列 。 推 荐 书目 在 本 书 的 网 站 上 ， 见 :， www. 
prenhall.com/tanenbaum, 





习题 


1. 用 你 自己 的 话 解 释 下 列 术 语 : 
a. 翻译 器 
b. 解释 器 
c. 虚拟 机 
2. 可 否 由 编译 器 直接 产生 微 体系 结构 层 所 需要 的 结果 而 不 需要 指令 系统 层 ?” 试 讨论 该 建议 的 
优 缺 点 。 
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3. 是 否 可 能 有 一 台 多 层次 计算 机 ， 其 最 底 的 两 层 不 是 设备 层 和 数字 逻辑 层 ? 说 明理 由 。 

4. 一 台 计 算 机 的 各 层 都 不 相同 ， 每 屋 指令 都 比 其 下 层 指令 功能 强 m 倍 ， 也 就 是 说 ,一 条 + 层 
指令 可 完成 m 条 -1 层 指令 的 功能 。 如 果 一 个 第 1 层 的 程序 需要 上 秒 钟 来 运行 ， 那么 同样 
功能 的 第 2.3.4 层 程 序 各 需 多 长 时 间 来 运行 ? 假定 解释 一 条 r+1 层 指 令 需 要 n Kr BABS. 

5. 操作 系统 层 的 一 些 指令 和 指令 系统 层 的 指令 相同 ， 这 些 指 令 不 经 操作 系统 而 由 硬件 或 微 程 
序 直接 执行 。 根 据 你 对 上 一 问题 的 回答 ， 为 什么 会 出 现 这 种 情况 ? 

6. 一 台 计 算 机 的 1、2、3 层 的 解释 器 都 相同 。 该 解释 器 需要 条 指令 来 进行 取 指 、 分 析 指 令 
和 执行 一 条 指令 。 如 果 第 1 层 的 一 条 指令 需要 执行 上 纳 秒 ， 那么 执行 第 2、3、4 层 的 指令 
各 需 多 长 时 间 ? 

7. 什么 情况 下 软件 和 硬件 等 同 ” 什么 情况 下 不 同 ? 

8. Babbage 的 差分 机 中 有 一 个 固定 的 程序 ， 无 法 修改 。 这 和 我 们 现在 的 CD-ROM 无 法 修改 本 
质 上 是 一 回 事 吗 ?请 说 明 原 因 。 

9. 冯 ， 诺 依 曼 将 程序 存 人 内 存 的 设计 带 来 的 后 果 之 一 是 程序 也 可 以 像 数据 一 样 被 修改 。 举 一 
个 可 利用 这 个 特性 的 例子 。( 提示 : 考虑 有 关 数 组 的 算法 。) 

10. IBM 360 75 型 机 的 性 能 是 30 型 机 的 50 倍 ， 而 它 的 机 器 周期 只 比 30 型 机 快 5 倍 。 你 如 何 
看 待 这 之 间 的 差别 ? 

11. 图 1-5 和 图 1-6 分 别 给 出 了 两 种 基本 的 系统 设计 方案 。 请 说 明 每 个 系统 的 输入 /输出 是 如 
何 实现 的 ， 哪 个 会 有 更 好 的 总 体 性 能 ? 

12. 假设 美国 的 3 亿 人 口 ， 每 人 每 天 消费 2 件 贴 有 RFID 标签 的 商品 。 那 么 ， 每 年 需要 生产 多 
“> RFID 标签 才能 满足 需求 ? 如 果 每 个 标签 1 美 分 ， 那么 这 些 标签 总 价值 是 多 少 ? 和 GDP 
的 总 量 比较 ， 这 些 钱 会 成 为 每 件 商品 都 使 用 RFID 标签 的 障碍 吗 ? 

13. 试 举 出 三 件 将 由 内 人 式 CPU 控制 运行 的 电器 。 

14. 目前 来 看 ， 微 处 理 器 上 的 一 个 晶体 管 直径 为 1 微米 。 根 据 Moore 定律 ， 明 年 一 个 晶体 管 会 
是 多 大 ? 

15. 事实 表明 ，Moore 定律 不 但 适用 于 半导体 密度 的 预测 ， 还 可 用 来 预测 ( 合理 的 ) 仿真 规模 
的 增长 ， 以 及 计算 机 仿真 运行 时 间 的 减少 。 一 个 例子 是 ， 如 果 一 个 关于 流体 力学 的 仿真 ， 
目前 需要 在 1 台 计 算 机 上 运行 4 小 时 的 话 ， 那 在 3 年 后 推出 的 1 台 计 算 机 上 仅 需 要 运行 i 
小 时 ， 而 在 6 年 后 推出 的 计算 机 上 仅 需 要 15 分 钟 。 第 二 个 例子 ， 某 个 大 型 仿真 计算 ， 如 
果 我 们 现在 预测 需要 用 时 5 年 的 话 ， 那 还 不 如 等 3 年 后 在 新 的 机 器 上 再 进行 仿真 ， 得 到 结 
果 还 能 更 早 一 些 。 

. 1979 年 ， 当 时 的 IBM 7090 每 秒 钟 可 执行 500 000 条 指令 ， 其 内 存 容量 是 32 768 个 36 位 
的 字 ， 成 本 高 达 300 万 美元 。 假 如 我 们 定义 一 个 机 器 的 性 价 比 为 指令 执行 速度 乘 以 内 存 空 
间 大 小 再 除 以 价格 ， 试 将 IBM 7090 与 当前 的 计算 机 进行 比较 。 再 看 看 如 果 同 样 的 发 展 速 
度 对 于 航空 业 会 是 什么 情 次 。1959 年 ， 波 音 707 开始 大 量 交付 给 航空 公司 。 其 飞行 速度 
是 950km/ 小 时 ， 载 客 量 为 180 人 ,造价 400 万 美元 。 按 照 计 算 机 行业 的 发 展 速度 ， 现 在 
的 飞机 的 速度 、 载 客 量 和 造价 应 该 是 多 少 ?请 进一步 说 明 你 对 计算 机 速度 、 内 存 容量 和 价 
格 的 预测 。 

. 计算 机 产业 经 常 走 的 是 螺旋 式 发 展 的 道路 。 例 如 ， 早 期 的 指令 系统 是 硬 布线 逻辑 实现 的 ， 
然后 采用 微 程 序 方式 实现 ， 再 后 来 ， 随 着 RISC 机 的 出 现 ， 又 回 到 硬 布线 实现 方式 。 又 
如 ， 早 期 的 计算 都 是 在 大 型 机 上 集中 式 的 计算 。 请 再 列举 两 种 情形 来 说 明 计 算 机 行业 的 螺 
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旋 式 发 展 方式 。 

18. 谁 是 计算 机 的 发 明 者 ? 这 个 问题 在 法 律 上 的 答案 是 由 Earl Larson 法 官 在 1973 年 4 月 认 
定 的 。 他 是 一 起 由 拥有 ENIAC 专利 的 Sperry Rand 公司 提起 诉讼 的 专利 侵权 案 的 主 审 ， 
Sperry Rand 公司 认为 ， 由 于 他 们 拥有 关键 的 专利 ， 任 何人 制造 一 台 计 算 机 都 应 该 向 他 们 
付 专利 费 。 该 案 于 1971 年 6 月 开始 审理 ， 提 供 了 超过 30 000 项 证 据 ， 法 院 审理 文稿 超过 
了 20000 页 。 请 你 用 能 从 互联 网 上 获得 的 其 他 信息 ， 写 出 一 份 报告 ， 详 细 讨论 本 案 中 的 
技术 问题 。Eckert 和 Mauchley 取得 了 什么 专利 授权 ? 为 什么 法 官 认为 他 们 设计 的 系统 是 
基于 Atanasoff 的 早期 工作 ? 

19. 选择 3 个 你 认为 在 创立 现代 计算 机 硬件 上 最 具 影 响 力 的 人 物 ， 写 一 篇 报告 描述 他 们 的 贡献 
并 说 明 你 选择 他 们 的 理由 。 

20. 选择 3 个 你 认为 在 创立 现代 计算 机 系统 软件 上 最 具 影 响 力 的 人 物 ， 写 一 篇 报告 描述 他 们 的 
贡献 并 说 明 你 选择 他 们 的 理由 。 

21. 选择 3 个 你 认为 在 创立 现代 大 流量 网 站 上 最 具 影 响 力 的 人 物 ， 写 一 篇 报告 描述 他 们 的 贡献 
并 说 明 你 选择 他 们 的 理由 。 
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计算 机 系统 组 成 





数字 计算 机 是 由 处 理 器 、 存 储 器 和 输入 /输出 设备 组 成 的 内 部 互 连 系统 。 本 章 介 绍 这 3 
种 部 件 和 它们 之 间 的 连接 ， 作 为 后 续 5 章 介绍 特定 层次 的 背景 知识 。 处 理 器 、 存 储 器 和 输入 / 
输出 设备 是 以 后 各 层 都 将 用 到 的 关键 概念 ， 所 以 我 们 通过 依次 介绍 这 3 种 部 件 来 开始 学 习 计 
算 机 体系 结构 。 


2.1 处 理 器 


图 2-1 是 面向 总 线 的 计算 机 组 成 的 一 个 简单 示意 图 。 中 央 处 理 部 件 (Central Processing 
Unit, CPU) 可 以 说 是 计算 机 的 “大 脑 ”"， 其 功能 是 通过 从 主 存储 器 中 逐条 进行 取 指令 、 分 析 
指令 和 执行 指令 的 过 程 来 执行 计算 机 程序 。 计 算 机 的 各 组 成 部 件 通过 总 线 连接 在 一 起 。 总 线 
是 一 些 平行 导线 的 集合 ， 计 算 机 用 它 来 传递 地 址 、 数 据 和 控制 信号 ， 它 可 以 在 CPU 之 外 ， 连 
接 CPU、 存 储 器 及 输入 /输出 设备 ; 也 可 以 在 CPU 内 部 连接 CPU 的 各 组 成 部 分 (下 面 马 上 
就 要 介绍 )。 现 代 计 算 机 中 有 多 条 总 线 。 


中 央 处 理 器 (CPU) 





输入 /输出 设备 








图 2-1 一 台 有 一 个 CPU 和 两 种 外 设 的 简单 计算 机 的 组 成 


CPU 由 相对 独立 的 几 个 部 分 组 成 。 控 制 器 负责 从 主 存储 器 中 取 指 令 和 分 析 指 令 类 型 ， 算 
术 逻 辑 部 件 通过 完成 诸如 加 法 、 逻 辑 与 等 算术 逻辑 运算 来 执行 指令 。 

CPU 内 部 还 包含 一 个 小 容量 、 高 速度 的 存储 器 ， 用 来 存放 中 间 结 果 和 一 些 控 制 信息 。 这 
个 存储 器 由 多 个 寄存 器 组 成 ， 每 个 寄存 器 都 有 确定 的 存储 容量 和 相应 的 功能 。 一 般 来 说 ， 所 
有 寄存 器 容量 都 相同 。 每 个 寄存 器 中 可 存放 一 个 不 超出 其 存储 范围 〈 根据 寄存 器 位 数 确定 ) 
的 数 ， 它 们 本 身 就 在 CPU 内 部 ， 可 以 被 CPU 高 速 读 写 。 

CPU 中 最 重要 的 寄存 器 是 程序 计数 器 (Program Counter，PC )， 它 指向 下 一 条 将 被 取 
出 用 于 执行 的 指令 。( “程序 计数 器 ”的 名 称 有 时 候 容 易 引 起 误解 ， 因 为 实际 上 它 并 没有 任 
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何 计数 的 作用 ， 而 是 一 个 约定 俗 成 的 叫 法 。) 同样 重要 的 寄存 器 还 有 指令 寄存 器 (Instruction 
Register，IR )， 其 中 存放 着 当前 正 执行 的 指令 。 多 数 计 算 机 中 还 有 许多 其 他 的 寄存 器 ， 一 些 
是 通用 寄存 器 ， 另 一 些 为 专用 寄存 器 。 而 且 ， 还 有 一 些 寄存 器 被 操作 系统 用 于 控制 计算 机 。 


2.1.1 CPU 组 成 


图 2-2 给 出 了 一 个 详细 一 些 的 典型 汉 ' 诺 依 曼 结构 CPU 的 内 部 组 成 。 我 们 把 图 中 所 有 
组 成 部 件 叫做 数据 通路 ， 包 括 寄存 器 (一般 来 说 为 1 ~ 32 个 )、 算 术 逻 辑 部 件 Arithmetic 
Logic Unit, ALU) 和 连接 它们 的 内 部 总 线 。 寄 存 器 给 ALU 的 两 个 输入 暂 存 器 (图 中 的 A 和 
B) 提供 输入 ， 暂 存 器 的 功能 是 在 ALU 进行 计算 时 维持 ALU 的 输入 数据 。 数 据 通路 在 所 有 
的 计算 机 中 都 非常 重要 ， 本 书 将 用 较 大 的 篇 幅 来 讨论 。 

ALU 本 身 对 输入 数据 进行 加 、 减 等 简单 运算 ， 然 后 将 产生 的 运算 结果 送 和 输出 暂 存 器 ， 
经 输出 暂 存 器 存 回 某 个 寄存 器 中 。 以 后 在 需要 时 还 可 从 寄存 器 写 入 ( 也 就 是 保存 ) 到 主 存 中 。 
并 非 所 有 的 CPU 中 都 有 输入 或 输出 暂 存 器 。 图 2-2 中 我 们 举 的 是 进行 加 法 的 例子 ， 显 然 ALU 
还 可 完成 其 他 的 运算 。 











图 2-2 ”典型 汉 ' 诺 依 曼 计算 机 的 数据 通路 


大 多 数 指令 可 以 归并 到 下 面 两 类 当中 : 寄存 器 - 主 存 指令 或 寄存 器 一 寄存 器 指令 。 寄 存 
器 - 主 存 指令 用 于 寄存 器 和 主 存 之 间 交 换 数据 ， 例 如 ， 将 主 存 当 中 的 字 取 到 寄存 器 当中 供 后 
续 指 令 使 用 。(“ 字 ”是 主 存 和 寄存 器 间 交 换 数 据 的 单位 ， 一 个 字 可 以 是 一 个 整数 。 我 们 将 在 
本 章 后 面 讨论 主 存 的 组 织 。 ) 也 可 以 是 将 寄存 器 中 的 数据 存 回 主 存 。 

另 一 类 指令 是 寄存 器 - 寄存 器 指令 。 典 型 的 寄存 器 - 寄存 器 指令 从 寄存 器 中 取得 两 个 操 
作 数 ， 送 入 ALU 的 输入 暂 存 器 ， 对 它们 进行 运算 〈 例 如， 加 法 或 逻辑 与 )， 然 后 再 将 运算 结 
果 送 回 到 其 中 的 一 个 寄存 器 当中 。ALU 将 两 个 操作 数 进行 运算 并 将 结果 写 回 的 过 程 称 为 数据 
通路 周期 这 是 大 多 数 CPU 的 核心 。 从 某 种 意义 上 说 ， 它 决定 了 计算 机 的 功能 。 现 代 计 算 机 
中 有 多 个 可 并 行 操作 的 ALU， 有 些 是 为 不 同 的 功能 专门 设计 的 。 数 据 通路 周期 越 快 ， 计 算 机 
运行 起 来 就 越 快 。 
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2.1.2 ”指令 执行 


一 般 来 说 ， 计 算 机 执行 一 条 指令 的 过 程 可 以 大 致 分 为 以 下 几 个 步骤; 

1 ) 从 主 存 中 取 下 一 条 指令 到 指令 寄存 器 中 。 

2 ) 将 程序 计数 器 指向 后 面 的 一 条 指令 。 

3 ) 判断 刚 取 得 的 指令 的 类 型 。 

4) 车 该 指令 用 到 某 主 存单 元 ， 则 对 该 主 存单 元 进行 寻 址 。 

5 ) 必要 时 ， 从 主 存 中 取 一 个 字 到 CPU 的 寄存 器 中 。 

6) 执行 指令 。 

7) 返回 第 1 步 准备 执行 下 一 条 指令 。 

这 个 过 程 通常 称 为 取 指 - 译 码 - 执行 周期 ， 是 所 有 计算 机 操作 的 核心 。 

上 面 对 CPU 工作 过 程 的 描述 和 用 英语 写 的 程序 十 分 类 似 。 图 2-3 给 出 了 用 Java 方 法 (也 
叫 过 程 ) 重 写 上 述 过 程 的 非 正式 程序 inierpret。 正 在 被 解释 的 计算 机 有 两 个 可 从 用 户 程序 角度 
看 到 的 寄存 器 : 用 于 指示 下 一 条 执行 的 指令 的 程序 计数 器 (PC ) 和 累加 算术 运算 结果 的 累加 器 
(AC )。 还 有 下 列 内 部 寄存 器 : 在 指令 执行 时 存放 当前 指令 的 寄存 器 instr， 说 明 指令 类 型 的 寄存 
器 instr type， 指 示 指 令 操作 数 地 址 的 寄存 器 data loc 和 存放 当前 操作 数 的 寄存 器 data。 程 序 候 
定 指令 中 包含 单个 主 存 地 址 ， 该 地 址 中 存放 着 指令 的 操作 数 ， 例 如 ， 要 加 到 累加 器 中 的 数据 项 。 








public class Interp { 
static int PC; /存放 下 条 指令 地 址 的 程序 计数 器 
static int AC; /累加 器 ; 用 于 算术 运算 的 寄存 器 
static int instr; /存放 当前 指令 的 寄存 器 
static int instr_type; 1/ 指令 类 型 (操作 码 ) 
static int data_loc; / 数据 地 址 ， 如 没有 ， 则 值 为 一 1 
static int data; 1/ 存放 当前 操作 数 
static boolean run_bit = true; /运行 指示 位 ， 需 停机 时 将 其 关闭 


public static void interpret(int memory[], int starting_address) { 
/本 过 程 解释 执行 一 合 指令 只 有 一 个 内 存 操作 数 的 简单 计算 机 的 程序 。 该 计算 机 
// 用 寄存 器 AC 作 累加 器 ， 用 于 算术 运算 ， 如 ADD 指 令 将 内 存 中 的 一 个 整数 加 到 AC 
/之 类 的 。 解 释 器 一 直 运 行 ， 除 非 HALT 指 令 将 运行 指示 置 为 0。 和 运行 于 该 计算 机 上 
Shope os singed 程序 计数 器 、 运 行 指示 位 和 AC。 输 入 参数 有 主 存 空 间 和 
I © 


PC = starting_address; 
while (run_bit) { 
instr = memory[PC]; // 取 下 条 指令 到 instr 
PC = PC +1; /程序 计数 器 加 1 
instr_type = get_instr_type(instr); /判断 指令 类 型 
data_loc = find_data(instr, instr_type);i /对 数据 寻 址 (如 有 没有， 返回-]1 ) 
if (data_loc >= 0) 1/ 车 data_loc 为 =1， 则 没有 操作 数 


data = memory[data_loc]; // 取 操作 数 
execute(instr_type, data); /执行 指令 


} 


private static int get_instr_type(int addr) { ... } 
private static int find_data(int instr, int type) { ... } 
private static void execute(int type, int data) { ... } 





图 2-3 一 台 简 单 计算 机 的 解释 器 〈 Java 语言 编写 ) 
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能 用 程序 来 模拟 CPU 的 功能 这 个 事实 正 说 明了 程序 并 不 一 定 需 要 由 一 大 堆 电 子 器 件 组 成 
的 “硬件 ”CPU 来 执行 。 实 际 上 ， 可 以 由 另 一 个 程序 通过 取 指 令 、 分 析 指 令 和 执行 指令 的 过 
程 来 执行 一 个 程序 的 指令 。 这 个 获取 、 分 析 执 行 其 他 程序 指令 的 程序 ( 如 图 2-3 所 示 的 程序 ) 
就 是 解释 器 ， 我 们 在 第 1 章 中 已 介绍 过 。 

硬 处 理 器 和 解释 器 之 间 的 等 价 性 对 计算 机 组 成 和 计算 机 系统 设计 有 很 大 影响 。 在 确定 一 
台新 计算 机 的 机 器 语言 L 后， 设计 小 组 要 决定 的 事情 就 是 研制 一 个 硬 处 理 器 来 直接 执行 工 的 
程序 还 是 写 一 个 解释 器 来 解释 执行 工 的 程序 。 当 然 ， 选择 写 解 释 器 也 需要 有 硬件 来 执行 解释 
器 。 一 部 分 指令 由 硬件 执行 ， 另 一 部 分 指令 由 软件 ( 解释 器 ) 解释 的 混合 方案 也 是 可 行 的 。 

解释 器 将 目标 机 的 指令 分 解 成 几 个 更 小 的 步骤 执行 ， 这 就 使 运行 解释 器 的 计算 机 比 起 用 
硬件 实现 的 目标 机 来 说 更 简单 也 更 廉价 一 些 。 当 目标 机 的 指令 集 比较 庞大 ， 或 者 指令 集中 有 
许多 带 有 复杂 选项 的 指令 时 ， 这 种 节约 就 十 分 可 观 了 ， 本质 上 的 原因 是 硬件 被 软件 (解释 器 ) 
所 取代 ， 而 用 硬件 实现 同样 的 功能 比 软件 实现 开销 要 大 许多 。 

早期 计算 机 的 指令 集 都 比较 小 ， 而 且 指 令 集 比较 简单 。 但 人 们 对 功能 更 强大 的 计算 机 的 
需求 ， 首 先导 致 的 就 是 要 求 它 的 每 条 指令 功能 更 强 一 些 ， 人 们 很 早 就 发 现 ; 虽然 复杂 的 指令 单 
条 执行 的 时 间 要 长 一 些 ， 但 却 能 使 整个 程序 执行 得 更 快 。 浮 点 数 指令 和 直接 支持 访问 数组 元 素 
的 指令 就 是 例子 。 有 了 时， 为 简化 程序 ， 也 常常 把 两 条 经 常 连续 执行 的 指令 合并 成 一 条 指令 。 

复杂 一 些 的 指令 整体 性 能 更 好 的 原因 就 在 于 单 步 操 作 的 执行 有 时 可 以 重 释 ， 或 用 不 同 的 
硬件 并 行 执行 。 对 价格 较 高 的 高 性 能 计算 机 来 说 ， 可 以 比较 容易 地 调整 这 些 额 外 硬件 的 成 本 ， 
因此 ， 价 格 高 昂 的 高 性 能 计算 机 一 般 比 那些 廉价 计算 机 的 指令 要 多 。 当 然 ， 随 着 软件 开发 成 
本 的 提高 及 对 指令 兼容 性 的 要 求 ， 那 些 价 格 比 速度 还 重要 的 低 价 位 计算 机 也 需要 实现 一 些 复 
杂 的 指令 。 

到 20 世纪 50 年 代 后 期 ，IBM ( 当时 占 统治 地 位 的 计算 机 公司 ) 认识 到 ， 支 持 一 个 所 有 
计算 机 都 执行 相同 指令 的 计算 机 系列 ， 对 于 IBM 和 它 的 用 户 来 说 ， 都 有 很 多 优势 。IBM 引入 
体系 结构 这 个 术语 来 描述 这 一 层次 的 兼容 性 。 他 们 希望 同系 列 的 计算 机 的 体系 结构 相同 ,但 
用 不 同 的 实现 方法 来 执行 同样 的 程序 ， 只 在 价格 和 速度 上 各 不 相同 。 但 如 何 使 低 成 本 的 计算 
机 能 执行 高 价 、 高 性 能 计算 机 的 所 有 复杂 指令 呢 ? 

实现 途径 就 是 解释 。 这 个 由 Maurice Wilkes 在 1951 年 首先 提出 的 技术 使 设计 简单 、 价 格 
低廉 的 计算 机 同样 可 以 执行 许多 指令 。 由 它 产生 了 IBM System/360 体系 结构 的 一 系列 兼容 计 
算 机 ， 全 系列 在 性 能 和 价格 两 方面 都 跨越 两 个 数量 级 。 直 接 由 硬件 实现 ( 也 就 是 说 ， 不 通过 
解释 ) 的 是 最 昂贵 的 。 

解释 执行 指令 的 简单 计算 机 还 有 许多 其 他 的 优势 ， 其 中 最 重要 的 有 : 

1) 在 解释 过 程 中 改正 指令 实现 中 的 错误 ， 甚 至 补偿 基础 硬件 中 的 设计 缺陷 。 

2) 可 以 以 最 小 的 代价 增加 新 的 指令 ， 甚 至 在 计算 机 发 货 后 也 能 做 到 这 点 。 

3 ) 结构 化 设计 ， 可 以 对 复杂 指令 方便 地 进行 升级 、 测 试 和 文档 化 。 

随 着 计算 机 市 场 在 20 世纪 70 年 代 的 急剧 膨胀 和 计算 机 功能 的 飞速 提高 ， 市 场 对 低 价 计 
算 机 的 需求 带动 了 使 用 解释 技术 的 计算 机 的 发 展 。 减少 硬件 而 改 用 解释 器 来 实现 特定 指令 集 
成 为 设计 处 理 器 的 一 种 有 效 办 法 。 随 着 底层 半导体 技术 的 飞速 进步 ， 价 格 上 的 优势 压倒 了 获 
得 更 高 性 能 的 野心 ， 基 于 解释 器 的 体系 结构 成 为 主流 的 设计 计算 机 的 手段 。20 世纪 70 年 代 ， 
从 小 型 机 到 大 型 机 ， 几 乎 所 有 新 设计 的 计算 机 都 是 基于 解释 器 的 。 

到 20 世纪 70 年 代 后 期 ， 除了 当时 最 昂贵 、 性 能 最 高 的 计算 机 型 号 ， 如 Cray-1 和 CDC 
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的 Cyber 系列 外 ， 运 行 解 释 器 的 简单 处 理 器 已 经 占 了 统治 地 位 。 解 释 器 的 运用 降低 了 实现 复 
杂 指 令 的 固有 成 本 ， 因 此 设计 者 开始 开发 更 多 的 复杂 指令 ， 特 别 是 增加 了 对 指令 操作 数 进 行 
寻 址 的 方式 。 

这 种 设计 趋势 随 着 DEC 的 VAX 计算 机 的 出 现 发 展 到 了 顶峰 。VAX 有 几 百 条 指令 ， 每 
条 指令 可 以 有 200 多 种 不 同 的 操作 数 寻 址 方式 。 不 幸 的 是 ，VAX 体系 结构 一 开始 就 设计 成 用 
解释 器 实现 ， 而 几乎 没有 想 过 用 高 性 能 的 硬件 实现 方案 。 思 维 上 的 限制 导致 引入 了 一 大 堆 带 
边界 值 的 指令 ， 而 且 很 难 直 接 执 行 。 实 践 证 明 ， 这 种 繁杂 性 对 VAX 是 致命 的 ， 最 后 也 要 了 
DEC 的 命 ( Compaq 于 1998 年 收购 了 DEC，2001 年 ，HP 又 收购 了 Compaq )。 

虽然 ，8 位 微 处 理 器 在 早期 已 是 指令 集 十 分 简单 的 计算 机 了 ， 但 到 了 70 年 代 后 期 ， 甚 至 
微 处 理 器 也 换 成 了 基于 解释 器 的 设计 。 当 时 ， 微 处 理 器 设计 者 面 对 的 主要 挑战 是 通过 集成 电 
路 来 解决 微 处 理 器 不 断 增长 的 复杂 性 。 基 于 解释 器 方案 的 优点 是 只 需要 设计 一 个 简单 的 处 理 
器 ， 而 把 复杂 性 问题 大 部 分 转移 到 存放 解释 器 的 存储 器 中 ， 即 把 复杂 的 硬件 设计 转化 为 复杂 
的 软件 设计 。 

拥有 一 个 大 的 解释 执行 的 指令 集 的 Motorola 68000 的 成 功 和 几乎 同时 的 Zilog Z8000( 指 
令 集 大 小 相同 ， 但 没有 解释 器 ) 的 失败 ， 证 明了 解释 器 能 很 快 地 将 一 个 新 的 微 处 理 器 推 向 市 
场 。 考 虑 到 Zilog 的 领先 地 位 (2Z8000 的 先期 产品 Z80 HE 68 000 的 前 期 产品 6800 要 流行 得 
多 )， 这 就 更 使 人 惊讶 。 当 然 ， 这 中 间 还 有 其 他 因素 在 起 作用 ， 至 少 ，Motorola 是 一 个 有 很 长 
历史 的 芯片 制造 商 ， 而 Exxon (Zilog 的 所 有 者 ) 历史 上 是 一 个 石油 公司 ， 而 不 是 芯片 制造 商 。 

当时 使 解释 器 大 行 其 道 的 另 一 个 原因 是 存在 用 来 存放 解释 程序 的 快速 只 读 存储 器 一 一 控 
制 存储 器 。 假 设 解释 执行 一 条 典型 的 68 000 指令 需要 执行 10 条 解释 程序 指令 ， 即 微 程序 ， 
每 条 微 程 序 指令 执行 100ns， 还 需 访问 两 次 主 存 ， 每 次 需 500ns。 那 么 ， 执 行 68 000 指令 的 总 
时 间 为 2000ns， 是 直接 用 硬件 执行 的 最 好 情况 的 2 倍 。 如 果 没 有 控制 存储 器 ， 那 解释 执行 一 
条 指令 的 时 间 将 是 6000ns。6 倍 的 延 时 就 比 2 倍 延 时 难 “ 消 化 ”得 多 。 


2.1.3 RISC 和 CISC 


20 世纪 70 年 代 后 期 ， 人 们 对 许多 十 分 复杂 的 指令 做 过 实验 ， 结 果 证 实 这 些 指 令 都 能 用 
解释 器 实现 。 设 计 者 开始 试图 弥合 高 级 程序 语言 和 计算 机 机 器 语言 之 间 的 “语义 代沟 ” ， 几 乎 
没有 人 考虑 设计 简单 点 的 计算 机 ， 就 像 现 在 没有 在 设计 功能 简单 些 的 电子 表格 、 网 络 和 Web 
服务 器 等 方面 投入 太 多 研究 一 样 ( 也 许 今 后 会 是 一 种 遗憾 )。 

IBM 公司 由 John Cocke 领导 的 一 个 研究 小 组 扭转 了 这 一 趋势 ， 他 们 和 Seymour Cray 合 
作 ， 开 始 研究 高 性 能 小 型 计算 机 ， 并 研制 出 实验 型 小 型 机 801。 虽 然 IBM 从 未 把 这 种 机 型 推 
向 市 场 ， 研 究 结果 也 是 多 年 之 后 才 公 开 (Radin，1982 )， 但 外 界 还 是 得 到 了 一 些 消息 ， 许 多 
人 也 开始 研究 起 类 似 的 体系 结构 来 。 

1980 年 ，Berkeley 的 一 个 由 David Patterson 和 Carlo Séquin 领导 的 研究 小 组 开始 设计 不 
用 解释 器 的 超大 规模 集成 电路 CPU 芯片 (Patterson，1985 ; Patterson and Séquin, 1982). {th 
们 创造 术语 RISC 来 描述 这 个 概念 ， 并 把 他 们 的 CPU 命名 为 RISC I， 紧 跟着 又 推出 RISC II。 
其 后 不 入， 在 Standford 边 上 的 旧金山 谷 ，John Hennessy 于 1981 年 设计 和 制造 出 了 他 称 为 
MIPS 的 芯片 (Hennessy，1984 )， 只 是 和 RISC 稍微 有 些 不 同 。 这 两 种 芯片 分 别 引出 了 两 种 
重要 的 商业 芯片 ，SPARC 和 MIPS. 
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新 处 理 器 和 当时 的 商业 处 理 器 有 着 很 大 的 区 别 。 新 CPU 不 存在 兼容 过 去 产品 的 问题 ， 它 
们 的 设计 者 可 以 自由 地 选择 新 的 指令 集 ， 来 最 大 限度 地 提高 系统 的 整体 性 能 。 由 于 设计 之 初 
就 强调 选用 能 快速 执行 的 简单 指令 ， 大 家 很 快 认识 到 设计 出 能 快速 启动 的 指令 是 提高 性 能 的 
关键 ， 每 秒 钟 启动 指令 的 条 数 比 单条 指令 的 执行 时 间 更 重要 。 

这 些 简单 处 理 器 开始 设计 的 时 候 ， 它 们 引起 大 家 注意 的 特点 是 指令 集 相 对 较 小 ， 一 般 为 
50 条 指令 左右 ， 比 起 当时 DEC 的 VAX 和 IBM 大 型 机 的 200 ~ 300 条 指令 规模 来 说 小 多 了 。 
实际 上 ，RISC 是 精简 指令 计算 机 ( Reduced Instruction Set Computer) 的 缩写 ， 和 代表 复杂 指 
令 计 算 机 ( 上 暗 指 当时 在 大 学 计算 机 系 中 占 统治 地 位 的 VAX ) 的 CISC ( Complex Instruction Set 
Computer) 相对 应 。 现 在 ， 很 少 有 人 会 认为 指令 集 的 大 小 是 一 个 大 问题 ， 许 多 人 会 把 这 当成 
文字 游戏 。 

闲话 少 叙 。 一 场 RISC 的 支持 者 攻击 已 经 建立 好 的 秩序 (VAX, Intel 和 IBM 大 型 机 ) 的 
宗教 式 战争 接着 就 打响 了 。 他 们 宣称 设计 计算 机 的 最 好 途径 就 是 选择 少量 能 在 图 2-2 所 示 的 
数据 通路 的 一 个 周期 内 执行 的 简单 指令 ， 其 过 程 为 取 两 个 寄存 器 的 值 ， 以 某 种 方式 进行 运算 
(例如 ， 相 加 或 逻辑 与 )， 再 将 结果 存 回 寄存 器 。 他 们 认为 ， 即 使 RISC 需要 四 或 五 条 指令 来 
完成 CISC 的 一 条 指令 的 功能 ， 但 如 果 RISC 指令 能 比 CISC 快 10 倍 的 话 (因为 RISC 不 需要 
解释 执行 )， 那么 ,还 是 RISC 占 优 。 值 得 指出 的 是 ， 此 时 主 存 的 速度 已 经 赶 上 了 只 读 控制 存 
储 器 的 速度 ， 解 释 执行 的 代价 已 经 高 了 很 多 ， 这 对 RISC 相当 有 利 。 

也 许 有 人 会 想 ， 以 RISC 技术 在 性 能 上 的 优势 ，RISC 机 (如 SUN 的 UltraSPARC ) 应 该 
已 经 在 市 场 上 横扫 CISC 机 (如 Intel 的 Pentium) 了 ,但 事实 并 非 如 此 。 为 什么 呢 ? 

首先 ， 有 一 个 向 后 兼容 的 问题 ， 要 考虑 到 许多 公司 在 Intel 系列 上 已 经 投资 的 几 十 亿美 元 
的 软件 。 其 次 , 令 人 惊讶 的 是 ，Intel 在 其 CISC 体系 结构 中 也 采用 了 RISC 思想 。 从 486 FF 
hf, Intel 的 CPU 中 就 包含 能 在 单个 数据 通路 周期 中 执行 一 些 最 简单 (一般 也 是 最 常用 ) 的 指 
SHI RISC 核心 ， 而 还 是 用 原 有 的 CISC 方式 解释 执行 那些 复杂 的 指令 。 这 样 ， 常 用 的 指令 执 
行 快 ， 而 不 常用 的 指令 执行 起 来 就 慢 一 些 。 显 然 ， 这 种 混合 方案 不 如 纯 RISC 方案 快 ， 但 它 
却 能 在 不 加 修改 地 运行 旧 程 序 的 前 提 下 给 出 极 具 竞争 力 的 整体 性 能 。 


2.14 现代 计算 机 设计 原则 


第 一 台 RISC 机 诞生 到 现在 已 经 二 十 多 年 了 ,在 当前 硬件 技术 条 件 下 ， 许 多 设计 原则 已 
经 被 人 们 作为 好 的 设计 计算 机 的 原则 接受 了 。 当 然 ， 如 果 在 硬件 技术 上 有 大 的 突破 ( 如 新 的 
制造 工艺 突然 使 内 存 访问 周期 比 CPU 周期 快 了 10 倍 )， 一 切 将 重新 开始 。 这 就 是 计算 机 设计 
者 必须 始终 关注 可 能 影响 各 组 成 部 件 平衡 的 技术 更 新 的 原因 。 

但 应 该 承认 ,确实 存在 一 些 设计 原则 ， 有 时 也 可 以 说 是 RISC 机 设计 原则 ， 是 所 有 通用 
CPU 的 设计 者 都 应 尽力 遵循 的 。 尽 管 一 些 额 外 的 限制 条 件 ， 如 要 求 芯片 和 某 些 已 有 的 体系 结 
构 兼 容 等 ， 经 常 让 我 们 有 所 妥协 ， 但 这 些 原 则 是 大 多 数 设计 者 努力 实现 的 目标 。 下 面 ， 我 们 
就 讨论 其 中 主要 的 几 条 。 

1. 所 有 指令 由 硬件 直接 执行 

所 有 常用 的 指令 应 该 交 给 硬件 直接 执行 ， 不 要 再 由 微 指令 解释 一 遍 。 减 少 一 层 解释 可 提 
高 大 多 数 指令 的 执行 速度 。 对 于 实现 CISC 指令 集 的 计算 机 ， 则 可 将 较 复杂 的 指令 分 解 成 可 
被 一 段 微 指令 执行 的 单独 部 分 ， 虽 然 这 个 额外 的 步 又 会 减 慢 机 器 的 速度 ， 但 对 那些 使 用 频 度 
不 高 的 指令 ， 还 是 可 以 接受 的 。 
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2. 最 大 限度 提高 指令 启动 速度 

现代 计算 机 采取 了 许多 策略 来 尽 可 能 提高 性 能 ， 最 主要 的 是 在 每 秒 钟 内 启动 尽量 多 的 
指令 。 毕 竟 ， 如 果 能 在 每 秒 钟 启 动 5 亿 条 指令 ， 那 就 是 一 个 500-MIPS 的 处 理 器 ， 而 不 必 计 
较 这 些 指 令 实际 上 用 了 多 长 时 间 执 行 完 。( Millions Instructions Per Second，MIPS， 即 每 秒 
百 万 条 指令 。MIPS 处 理 器 中 也 是 字 头 组 成 的 缩 略 语 ， 但 它 代 表 的 是 Microprocessor without 
Interlocked Pipeline Stage， 即 无 内 部 互 锁 流水 级 的 微 处 理 器 。) 这 条 原则 意味 着 指令 的 并 行 处 
理 对 提高 性 能 起 着 重要 的 作用 ， 因 为 要 在 这 么 短 的 时 间 间 隔 内 启动 如 此 多 的 慢 速 指令 ， 唯 一 
可 能 的 途径 是 让 多 条 指令 同时 执行 。 

虽然 取 指 令 的 顺序 和 程序 代码 的 顺序 相同 ， 但 指令 并 不 总 是 按 程 序 代码 顺序 启动 〈 因 为 
有 些 指令 需要 的 资源 可 能 不 在 空闲 状态 )， 也 不 会 强求 它们 按 程序 代码 顺序 结束 。 当 然 ， 如 果 
指令 1 向 寄存 器 写 了 一 个 数 ， 而 且 指 令 2 要 用 到 这 个 寄存 器 ， 那 就 要 小 心 保 证 指令 2 只 有 在 
寄存 器 中 有 了 正确 值 后 再 去 读 这 个 寄存 器 了 。 所 以 ， 通 过 同时 执行 多 条 指令 是 有 可 能 提高 性 
能 的 ， 但 要 做 许多 记录 来 保证 指令 的 正确 执行 顺序 。 

3. 指令 应 容易 译 码 

严重 阻碍 指令 启动 速度 提高 的 因素 之 一 是 判断 指令 要 用 到 的 资源 的 译 码 过 程 ， 应 采取 一 
切 手段 来 加 速 指令 的 译 码 ,包括 使 指令 规整 、 固 定 指令 的 长 度 、 指 令 中 的 字段 数 要 少 一 些 。 
指令 格式 越 少 越 好 。 

4. 只 允许 读 写 主 存 指令 访问 主 存 

将 计算 机 操作 分 解 为 独立 步 又 的 最 简单 办 法 之 一 是 规定 多 数 指令 的 操作 数 来 自 CPU 的 
寄存 器 中 ， 且 结果 写 回 到 寄存 器 中 ， 把 将 操作 数 从 主 存 读 人 寄存 器 的 操作 交 给 单独 的 指令 来 
完成 。 由 于 访问 主 存 需 花 费 较 长 的 时 间 ， 且 延 时 无 法 预测 ， 所 以 如 果 这 些 指令 仅 将 操作 数 在 
寄存 器 和 主 存 间 移 动 的 话 ， 最 好 是 使 它们 和 其 他 指令 重 琶 执行 。 从 这 一 点 说 ， 最 好 是 只 有 
LOAD 和 STORE 指令 可 以 访问 主 存 。 所 有 其 他 的 指令 操作 数 应 只 在 寄存 器 中 。 

5. 提供 足够 的 寄存 器 

由 于 访问 主 存 相 对 来 说 较 慢 ， 这 就 要 提供 多 一 些 (至 少 32 个 ) 寄存 器 ， 保 证 从 主 存 中 取 
来 一 个 字 后 ， 就 能 一 直 保 存在 寄存 器 中 ， 直 到 不 再 需要 。 把 寄存 器 用 完 后 ， 为 装 人 数据 而 不 
得 不 将 一 些 数 据 写 到 主 存 中 是 不 足 取 的 ， 应 尽量 避免 。 最 好 的 办 法 就 是 设计 足够 的 寄存 器 。 


2.1.5 ”指令 级 并 行 


计算 机 设计 者 一 直 为 提高 他 们 设计 的 计算 机 的 性 能 而 努力 着 。 通 过 提高 芯片 的 主 频 来 使 
它 运 行 的 快 一 些 是 一 条 途径 ,但 每 个 新 设计 都 有 在 当时 条 件 下 主 频 能 提高 到 的 极限 。 因 此 ， 
多 数 设计 者 把 并 行 处 理 (同时 处 理 两 件 或 更 多 件 事 情 ) 作为 在 给 定 主 频 下 取得 更 好 性 能 的 另 
一 条 途径 。 

一 般 说 来 有 两 种 形式 的 并 行 : 指令 级 并 行 和 处 理 器 级 并 行 。 前 者 指 在 指令 之 间 应 用 并 行 ， 
使 计算 机 在 单位 时 间 里 处 理 更 多 的 指令 。 后 者 是 指 多 个 CPU 一 起 工作 ， 解 决 同一 个 问题 。 两 
种 形式 都 有 自己 的 优点 。 本 节 我 们 先 来 看 一 看 指令 级 并 行 ， 下 一 节 讨 论处 理 器 级 并 行 。 

1. 指令 流水 

多 年 来 人 们 一 直 知道 从 主 存 中 取 指 令 的 过 程 是 提高 指令 执行 速度 的 主要 瓶颈 。 为 缓解 这 
个 矛盾 ， 我 们 可 以 最 早 追 溯 到 1959 年 的 IBM Stretch 计算 机 ， 当 时 就 已 经 具备 将 指令 从 主 存 
中 预 取 出 来 ， 供 需要 时 使 用 的 能 力 。 这 些 指 令 存放 在 一 组 称 为 预 取 缓冲 的 寄存 器 中 。 这 样 ， 
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需要 指令 的 时 候 ， 通 常 就 可 以 从 预 取 缓 冲 区 中 取 到 ， 而 不 必 等 待 一 个 读 取 主 存 周期 了 。 

实际 上 ， 预 取 把 指令 执行 分 解 成 了 两 个 部 分 : 取 指令 和 实际 执行 指令 。 指 令 流 水 的 概念 
把 这 个 策略 再 往 前 推 了 一 步 。 它 一 般 是 把 指令 执行 分 解 成 更 多 ( 通常 为 12 个 或 更 多 ) 的 部 
分 ， 每 个 部 分 由 精心 设计 的 硬件 分 别 执行 ， 都 可 以 并 行 运 行 。 

图 2-4a 指出 将 指令 执行 分 解 为 5 部 分 ， 也 可 以 说 是 5 个 子 过 程 的 流水 过 程 。 子 过 程 1 从 
主 存 中 取 指 令 放 到 缓冲 寄存 器 中 备用 。 子 过 程 2 对 指令 进行 译 码 ， 判 断 指令 类 型 和 指令 需要 
的 操作 数 。 子 过 程 3 从 寄存 器 或 主 存 中 找到 并 取 来 操作 数 。 子 过 程 4 完成 实际 的 指令 功能 ， 
即将 操作 数 通过 图 2-2 所 示 的 数据 通路 得 到 运算 结果 。 最 后 ， 子 过 程 5 将 结果 写 回 到 指令 规 
定 的 寄存 器 中 。 
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b) 每 个 过 程 随时 间 变 化 的 状态 变化 
图 2-4 随时 间 变 化 的 流水 过 程 。 图 中 画 了 9 个 周期 


从 图 2-4b 我 们 可 以 看 到 随时 间 变 化 指令 的 流水 过 程 。 第 1 个 时 钟 周期 ， 子 过 程 S1 工作 
于 第 1 条 指令 ,将 它 从 主 存 中 取出 。 第 2 个 时 钟 周 期 ， 子 过 程 S2 对 第 1 条 指令 进行 译 码 ， 而 
S1 开始 取 第 2 条 指令 。 第 3 个 周期 ， 子 过 程 S3 取 第 1 条 指令 的 操作 数 ，S2 对 第 2 条 指令 译 
码 ，S1 取 第 3 条 指令 。 第 4 个 周期 ， 子 过 程 S4 执行 第 1 条 指令 ，S3 取 第 2 条 指令 的 操作 数 ， 
S2 对 第 3 条 指令 译 码 ，S1 取 第 4 条 指令 。 最 后 ， 到 第 5 个 周期 时 ，S5 将 第 1 条 指令 的 结果 
写 回 ， 其 他 子 过 程 依次 工作 于 各 自 的 下 一 条 指令 。 

我 们 打 个 比方 来 把 指令 流水 的 概念 表述 得 更 清楚 一 些 。 想 象 有 一 个 蛋糕 厂 ， 它 的 烤 蛋 粒 
房 和 包装 室 是 分 开 的 。 包 装 部 有 一 条 传输 带 , 有 5 个 工人 (处 理 部 件 ) 在 传输 带 旁 工作 。 每 
10 Sh (一 个 时 钟 周期 ), 第 1 个 工人 向 传输 带 放 一 个 蛋糕 盒 。 盒 子 在 传输 带 上 送 到 第 2 个 
工人 处 ， 他 把 蛋糕 放 进 盒 中 。 然 后 ， 盒 子 继续 向 下 传 给 第 3 个 工人 ， 他 把 盒子 盖 上 并 封 好 后 
传 给 第 4 个 工人 ， 他 负责 向 上 面 贴标签 。 最 后 ， 第 5 个 工人 把 盒子 从 传输 带 上 取 下 来 放 人 大 
容器 中 ， 准 备 稍 后 送 到 超市 去 。 基 本 上 ， 计 算 机 的 指令 流水 也 是 这 样 工作 的 : 在 最 后 执行 完 
之 前 ， 每 条 指令 (蛋糕 ) 要 经 过 几 个 处 理 过 程 。 

回 到 图 2-4 所 示 的 指令 流水 。 假 设 这 人 台 计 算 机 的 时 钟 周 期 为 2 纳 秒 ， 那 么 ， 一 条 指令 经 
过 完整 流水 线 的 5 个 子 过 程 需要 10 纳 秒 。 乍 一 看 来 ， 一 条 指令 需 执 行 10 纳 秒 ， 也 就 是 该 计 
算 机 的 速度 是 100MIPS。 可 实际 上 它 的 速度 要 快 得 多 。 在 每 个 时 钟 周 期 (2 纳 秒 )， 都 有 一 条 
指令 执行 完毕 ， 所 以 它 的 实际 处 理 速度 是 500MIPS ， 不 是 100MIPS。 
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间 令 流水 既 可 以 用 指令 时 延 (执行 一 条 指令 的 时 间 )， 也 可 以 用 处 理 器 带宽 (CPU 的 
MIPS 数 ) 来 衡量 。 对 于 有 nn 个 子 过 程 ， 时 钟 周期 为 7 纳 秒 的 流水 线 ， 其 指令 时 延 为 nT 纳 
秒 ， 因 为 每 条 指令 需要 n 个 步骤 才能 执行 完毕 ， 每 个 步 又 需要 用 时 了 纳 秒 。 

由 于 每 个 时 钟 周期 都 由 一 条 指令 完成 ， 而 每 秒 有 10%T 个 时 钟 周 期 那么 ， 每 秒 执行 的 
指令 数 就 是 10YT。 例 如 ， 如 果 7=2 纳 秒 ， 每 秒 钟 就 可 执行 5 亿 条 指令 。 为 得 到 CPU 的 MIPS 
E, 我 们 只 能 将 指令 的 执行 速率 除 以 1 百 万 ， 来 求 得 ( 10%T) /10°%=1000/T MIPS, 理论 上 讲 ， 
我 们 应 该 用 BIPS 代替 MIPS 来 衡量 CPU 执行 指令 的 速度 。 但 没有 人 这 样 用 ， 所 以 我 们 也 就 
用 MIPS 了 。 

2. 超标 量 体 系 结构 

既然 一 条 流水 线 可 以 提高 计算 机 的 性 能 ， 那 么 两 条 流水 线 就 更 能 提高 性 能 了 。 图 2-5 给 
出 了 以 图 2-4 为 基础 的 双流 水 线 CPU 的 一 种 设计 。 它 有 一 个 取 指 部 件 ， 可 以 一 次 取 两 条 指 
A, 分 别 将 它们 送 入 各 自 的 流水 线 中 ， 由 各 自 的 ALU 并 行 执行 。 当 然 ， 能 够 并 行 运行 的 条 件 
是 这 两 条 指令 使 用 的 资源 ( 如 寄存 器 等 ) 没有 冲突 ， 而 且 不 能 互相 依赖 对 方 的 执行 结果 。 这 
就 是 说 ， 对 每 条 流水 线 而 言 ， 或 者 由 编译 器 来 保证 这 一 点 〈 即 当 指令 不 兼容 时 ， 硬 件 不 执行 
该 条 指令 并 给 出 出 错 信息 )， 或 者 用 专门 的 硬件 在 指令 执行 时 来 检查 和 减少 冲突 。 








图 2-5 共用 一 个 取 指 部 件 的 5 过 程 双流 水 线 


尽管 指令 流水 ， 不管 是 一 条 或 两 条 ， 大 都 用 在 RISC 机 上 (386 及 其 先驱 就 一 直 没 有 采 
用 )， 但 Intel 还 是 从 486 开始 在 其 CPU 上 采用 了 流水 技术 。486 有 一 条 流水 线 ， 原 Pentium 
有 两 条 和 图 2-5 大 致 类 似 的 5 过 程 流水 线 ， 只 是 在 子 过程 2 和 子 过 程 3 的 功能 划分 上 有 些 细 
微 差别 ( Intel 称 其 为 一 次 译 码 和 二 次 译 码 )。 其 主要 流水 线 ， 也 就 是 流水线 ;可 以 执行 所 有 
Pentium 指令 ， 而 副 流水 线 即 v 流水 线 ， 只 能 执行 简单 的 整数 指令 ( 和 仅 有 的 一 条 简单 的 浮 点 
数 指令 一 一 FXCH )。 

用 确定 的 规则 就 可 以 判断 一 对 指令 是 否 能 并 行 执 行 (是否 兼容 )。 如 果 这 对 指令 不 够 简 
单 或 者 不 兼容 ， 那 就 只 执行 前 一 条 指令 (在 流水 线 中 )， 而 把 第 二 条 指令 留 下 来 和 下 一 条 指 
令 配对 执行 ， 保 证 所 有 的 指令 顺序 执行 。 这 也 是 Pentium 专用 编译 器 ( 产生 兼容 的 配对 指令 ) 
比 老 编译 器 生成 的 程序 能 运行 得 更 快 的 原因 。 测 试 数据 表明 ， 对 于 整数 程序 ， 在 相同 主 频 下 ， 
Pentium 运行 经 优化 的 程序 的 速度 是 486 运行 同样 程序 的 两 信 (Pountain，1993 )， 而 这 主要 
得 益 于 副 流水 线 。 

想象 有 4 条 流水 线 是 可 以 的 ， 但 实际 做 出 来 就 太 复杂 ， 太 费 硬件 了 ( 而 计算 机 专家 又 不 
像 民 间 传 说 的 专家 ， 不 太 相 信 3 这 个 数字 ) 在 高 档 CPU 中 ,采用 的 是 一 种 替代 方案 。 基 本 
的 思路 是 采用 一 条 流水 线 ， 但 给 它 多 个 功能 部 件 ， 如 图 2-6 所 示 。Intel Core 的 体系 结构 就 和 
图 中 类 似 ， 我 们 在 第 4 章 再 讨论 。 术 语 超标 量 体 系 结构 就 是 为 说 明 这 种 方案 而 在 1987 年 提出 
的 (Agerwala 和 Cocke，1987 )。 它 的 起 源 可 以 追溯 到 40 多 年 的 CDC 6600 计算 机 ， 它 每 100 
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纳 秒 取 一 条 指令 ， 然 后 将 指令 交 给 10 个 功能 部 件 中 的 一 个 并 行 执 行 ， 而 CPU 再 去 取 下 一 条 
指令 。 

“超标 量 ” 的 定义 发 展 得 有 点 快 ， 现 在 常用 来 描述 那些 可 在 一 个 时 钟 周期 内 启动 多 条 一 一 
通常 是 4 或 6 条 一 一 指令 的 处 理 器 。 当 然 ， 超 标量 CPU 必须 有 多 个 功能 部 件 来 处 理 这 些 指 





令 。 由 于 超标 量 处 理 器 一 般 只 有 一 条 流水 线 ， 所 以 它们 往往 采用 类 似 图 2-6 的 结构 。 


s4 








图 2-6 有 5 个 功能 部 件 的 超标 量 处 理 器 


使 用 这 个 定义 ， 由 于 在 一 个 周期 内 只 能 启动 一 条 指令 ， 所 以 6600 从 技术 上 来 说 不 能 称 为 
超标 量 处 理 器 。 当 然 ， 最 终 的 结果 是 几乎 一 样 的 : 指令 启动 的 速度 比 它们 执行 的 速度 高 很 多 。 
1 个 时 钟 周期 为 100 纳 秒 ， 每 个 周期 启动 一 条 指令 为 一 组 功能 部 件 执行 的 CPU， 和 一 个 时 钟 
周期 为 400 纳 秒 ， 每 个 周期 启动 4 条 指令 为 一 组 功能 部 件 执行 的 CPU 之 间 的 区 别 相当 小 。 两 
种 情况 下 的 关键 点 都 是 指令 的 启动 速度 比 执行 速度 高 很 多 ， 而 将 实际 的 工作 量 分 给 一 组 功能 
部 件 来 完成 。 

在 超标 量 计算 机 体系 结构 的 思路 中 暗含 一 个 事实 ， 即 子 过 程 S3 处 理 指 令 的 速度 比 子 过 程 
S4 执行 指令 的 速度 要 快 很 多 。 如 果 S3 每 10 纳 秒 处 理 一 条 指令 而 且 所 有 的 功能 部 件 都 能 在 10 
纳 秒 内 完成 其 工作 的 话 ， 那 么 同时 处 于 工作 状态 的 功能 部 件 就 不 会 超过 一 个 ， 整 个 方案 就 没 
有 意义 了 。 事 实 上 ， 大 多 数 子 过 程 S4 的 功能 部 件 需要 花 超过 一 个 时 钟 周 期 去 执行 指令 ， 特 别 
是 那些 访问 主 存 和 进行 浮 点 运算 的 指令 。 正 如 我 们 在 图 2-6 中 看 到 的 ， 在 S4 中 甚至 可 以 有 多 
个 ALU。 


2.1.6 ”处 理 器 级 并 行 


人 类 对 更 快 计算 机 的 追求 似乎 永 无 止境 。 天 文学 家 需要 模拟 大 爆炸 后 一 微 秒 发 生 的 事情 ， 
经 济 学 家 希望 建立 起 世界 经 济 运行 模型 ， 而 十 几 岁 的 小 孩 要 在 互联 网 上 和 他 们 的 虚拟 朋友 玩 
三 维 交互 多 媒体 游戏 。 就 算 CPU 速度 不 断 提 高 ， 最 终 也 会 达到 它 的 极限 一 一 光速 ， 无 论 Intel 
的 工程 师 有 多 人 么 高 明 ， 电 流 在 导线 中 或 光束 在 光纤 中 的 传播 速度 也 不 能 超过 20cm/ns。 同 时 ， 
芯片 速度 越 快 ,产生 的 热量 也 越 多 ， 散 热 也 是 一 个 问题 。 事 实 上 ， 难 以 去 除 CPU 产生 的 热量 
是 近 10 年 来 CPU 时 钟 速度 停滞 不 前 的 主要 原因 。 
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指令 级 并 行 对 提高 速度 有 所 帮助 ， 但 流水 线 和 超标 量 体 系 结构 提高 的 速度 很 难 超过 5 倍 
或 10 倍 。 要 想 50 倍 、100 售 或 更 高 地 提高 速度 ， 唯 一 的 办 法 是 设计 多 CPU 的 计算 机 。 本 节 
我 们 来 看 看 它们 当中 的 一 些 是 怎么 组 织 的 。 

1. 数据 并 行 计 算 机 

物理 学 、 工 程 学 和 计算 机 图 形 学 等 计算 领域 中 的 许多 问题 都 涉及 循环 和 阵列 ， 或 其 他 高 
度 规则 的 结构 ， 经 常 要 重复 完成 对 不 同 数据 集合 的 相同 运算 。 数 据 的 高 度 规则 和 程序 的 结构 
化 使 通过 并 行 执行 指令 加 速 程序 执行 变 得 十 分 容易 。 我 们 主要 有 两 种 方式 来 快速 并 高 效 地 执 
行 这 类 高 度 规则 的 程序 : SIMD 处 理 器 和 向 量 处 理 器 。 它 们 在 很 多 方面 极其 类 似 ， 但 有 意思 
的 是 ， 它 们 中 前 者 被 看 成 是 并 行 计算 机 ， 而 后 者 却 被 当成 是 单 处 理 器 的 扩展 。 

由 于 数据 并 行 计算 机 高 效率 的 特点 ,使 得 它 在 许多 场合 下 得 到 了 成 功 的 应 用 。 相 比 其 
他 的 实现 方案 ， 它 使 用 更 少 的 晶体 管 获得 了 更 为 强大 的 计算 能 力 。Gordon Moore (Moore 定 
E) 注意 到 每 英亩 (4047 平方 米 ) 的 硅 价 值 大 约 10 亿美 元 ， 这样， 如 果 从 每 英亩 的 硅 片 中 
能 “ 挤 ” 出 更 多 的 计算 能 力 ， 计 算 机 公司 就 能 从 中 赚 到 更 多 的 钱 。 数 据 并 行 处 理 器 是 从 硅 片 
中 “ 挤 ” 出 更 多 计算 能 力 的 最 有 效 手段 之 一 。 由 于 所 有 的 处 理 器 都 运行 相同 的 指令 ， 数 据 并 
行 处 理 器 仅 需 要 一 个 “大 脑 ”来 控制 计算 机 的 运行 。 相 应 地 ， 处 理 器 仅 需 要 一 个 取 指 令 部 件 、 
一 个 指令 译 码 部 件 和 一 套 控制 逻辑 。 节 省 下 来 的 硅 器 件 使 数据 并 行 计算 机 相 比 其 他 处 理 器 有 
很 大 的 优势 ， 只 要 它们 运行 的 软件 高 度 规则 且 具 有 并 行 的 特点 。 

单 指令 流 多 数据 流 处 理 器 ,或 称 SIMD (Single Instruction-stream Multiple Data-stream ) 
处 理 器 由 许多 在 不 同 数 据 集合 上 执行 同样 指令 序列 的 完全 相同 的 处 理 器 组 成 。 世 界 上 第 一 
台 使 用 SIMD 处 理 器 的 计算 机 是 Illinois 大 学 的 ILLIAC IV ( Bouknight 等 ，1972 )。 最 初 的 
ILLIAC IV 设计 是 研制 一 台 有 4 个 象限 ， 每 个 象限 有 8 x 8 个 处 理 器 / 存储 器 组 组 成 的 计算 机 ， 
且 都 有 一 个 单独 的 控制 部 件 对 这 些 处 理 器 广播 一 条 指令 ， 供 象限 内 所 有 处 理 器 步调 一 致 地 执 
行 ， 但 其 处 理 的 数据 则 来 自 各 自 的 存储 器 。 由 于 资金 受到 限制 ， 最 终 实现 时 只 做 了 速度 达到 
每 秒 5000 万 次 浮 点 运算 的 一 个 象限 。 如 果真 能 制造 出 每 秒 10 亿 次 浮 点 运算 能 力 的 整 台 计算 
机 ， 那 将 使 当时 整个 世界 的 计算 能 力 翻 番 。 

现代 的 图 形 处 理 器 (GPU ) 严重 依赖 SIMD 人 处理 器 使 用 较 少 的 晶体 管 来 提供 巨大 的 处 
理 能 力 。 图 形 处 理 器 把 自己 和 SIMD 处 理 器 联系 到 一 起 是 因为 大 多 数 图 形 处 理 算 法 是 高 度 规 
则 的 ， 即 对 像素 点 、 顶 点 、 纹 理 和 边 进行 重复 操作 。 图 2-7 给 出 了 英 伟 达 Fermi GPU 核 中 的 
SIMD 处 理 器 的 示意 图 。 一 个 Fermi GPU 最 多 可 有 16 个 SIMD 流 的 多 处 理 器 ( SM )， 其 中 每 
个 SM 中 包含 32 个 SIMD 处 理 器 。 每 个 周期 ， 调 度 器 选择 两 个 线程 在 SIMD 处 理 器 上 执行 。 
那么 ， 每 个 线程 的 下 一 条 指令 最 多 可 在 16 个 SIMD 处 理 器 上 执行 ， 当 然 如 果 并 行 处 理 的 数据 
不 够 的 话 处 理 器 数量 可 能 会 少 一 些 。 如 果 每 个 周期 中 每 个 线程 都 能 完成 16 次 运算 ， 那么 ， 一 
个 满 负载 的 32 个 SM 的 Fermi GPU 核 将 在 每 个 周期 内 完成 惊人 的 512 次 运算 。 这 的 确 令 人 印 
象 深刻 ， 可 以 想象 一 下 ， 相 同 规模 的 通用 4 核 CPU 只 能 取得 大 约 1/32 的 处 理 能 力 。 

对 程序 员 来 说 ， 向 量 处 理 器 和 SIMD 处 理 器 十 分 类 似 ， 在 对 不 同 的 数据 元 素 执行 一 系列 
相同 操作 时 能 大 幅度 提高 运算 速度 。 不 同 的 是 ， 它 的 所 有 运算 都 由 一 个 单独 的 高 度 流 水 的 功 
能 部 件 实现 。 由 Seymour Cray 创建 的 Cray Research 公司 制造 了 许多 向 量 人 处理 器 ,包括 最 早 
的 1974 年 推出 的 Cray-1 到 现在 的 一 些 型 号 。 

SIMD 处 理 器 和 向 量 处 理 器 处 理 的 都 是 数据 组 成 的 阵列 ， 对 它们 执行 同样 的 指令 ， 如 将 
两 个 向 量 中 的 对 应 元 素 相 加 。 但 SIMD 处 理 器 对 应 于 每 个 向 量 中 的 元 素 都 要 有 一 个 加 法 器 ， 
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而 向 量 处 理 器 提出 向 量 寄存 器 的 概念 ， 向 量 寄 存 器 由 一 组 常规 寄存 器 组 成 ， 可 以 用 一 条 指令 [1 


从 内 存 中 装 人 数据 到 向 量 寄存 器 中 ( 实际 上 还 是 串 行 装 入 )， 然 后 执行 向 量 加 法 指令 ， 即 从 两 
个 对 应 的 向 量 寄存 器 中 读 和 人 相应 的 向 量 元 素 ， 流 水 进入 加 法 器 中 ， 再 将 从 加 法 器 中 得 到 的 结 
果 组 合成 结果 向 量 ， 然 后 存 回 到 向 量 寄 存 器 ， 或 直接 将 它 作为 操作 数 执行 下 一 个 向 量 运 算 。 
Intel Core 体系 架构 中 的 SSE 指令 就 采用 了 这 种 执行 模式 来 提高 多 媒体 软件 和 科学 计算 软件 的 
速度 。 从 这 个 观点 看 ，Intel Core 应 该 将 ILLIAC IV 作为 它 的 一 个 祖先 。 
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2. 多 处 理 器 

由 于 所 有 处 理 单元 共享 一 个 控制 器 ， 所 以 数据 并 行 处 理 器 中 的 处 理 单元 称 不 上 是 独立 的 
CPU。 世 界 上 第 一 个 真正 具有 多 CPU 的 并 行 系统 是 多 处 理 器 系统 ， 由 多 个 CPU 和 它们 共享 
的 一 块 公 共 内 存 组 成 ， 就 像 一 屋子 的 人 共享 一 块 公共 黑板 一 样 。 由 于 每 个 CPU 都 能 读 写 内 存 
中 的 任何 部 分 ， 所 以 它们 必须 (通过 软件 ) 互相 协调 ， 避 免 影 响 别 的 CPU 的 运行 。 当 两 个 或 
更 多 个 CPU 具备 了 如 多 处 理 器 一 样 紧密 的 相互 作用 的 能 力 时 ， 则 称 它们 为 紧 耦 合 。 

多 处 理 器 系统 的 实现 方法 各 式 各 样 。 最 简单 的 是 在 一 条 总 线 上 插 有 多 个 CPU 和 一 块 内 
存 。 图 2-8a 给 出 了 基于 总 线 的 多 处 理 器 系统 的 示意 图 。 

不 需要 太 多 的 想象 力 就 能 认识 到 ， 由 于 多 个 高 速 处 理 器 通过 同一 条 总 线 频繁 访问 内 存 ， 
将 造成 总 线 上 的 冲突 。 多 处 理 器 系统 的 设计 者 提出 了 多 种 方案 来 减低 总 线 冲 突 ， 提 高 性 能 。 
图 2-8b 给 出 了 其 中 的 一 种 ， 它 为 每 个 CPU 设计 了 一 些 局 部 内 存 ， 不 允许 其 他 CPU 对 这 些 内 
存 进行 访问 ,该 内 存 用 于 存放 该 CPU 要 执行 的 程序 代码 和 不 需 共享 的 数据 项 。 对 这 些 私有 内 
存 的 访问 无 须 通 过 总 线 ， 极 大 地 减少 了 总 线 上 的 流量 。 还 有 其 他 一 些 设 计 方 案 (如 高 速 缓存 ， 
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详 见 后 续 章 节 ) 也 十 分 有 效 。 
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BR 
a) 单 总 线 多 处 理 器 系统 b) 带 局 部 内 存 的 多 处 理 器 系统 


图 2-8 


比 起 其 他 种 类 的 并 行 计算 机 ， 多 处 理 器 系统 具有 一 个 明显 的 优势 ， 即 单 块 共享 内 存 的 编 
程 模型 比较 容易 处 理 。 例 如 ， 要 编写 一 个 从 放大 镜 拍摄 的 组 织 照片 上 寻找 癌 细 胞 的 程序 ， 就 
可 以 把 数字 化 后 的 照片 保存 在 公共 内 存 中 ， 给 每 个 处 理 器 指定 一 定 的 照片 区 域 进行 寻找 工作 。 
由 于 每 个 处 理 器 都 可 以 访问 整个 内 存 空 间 ， 那 么 ， 如 果 有 癌 细 胞 从 某 个 处 理 器 的 工作 区 域 跨 
到 另外 处 理 器 的 工作 区 域 ， 那么 程序 处 理 起 来 也 不 会 有 任何 问题 。 

3. 多 计算 机 

虽然 处 理 带 数量 不 多 ( < 256) 的 多 处 理 器 系统 相对 来 说 容易 制造 ， 但 处 理 器 一 多 制造 
起 来 就 十 分 困难 。 主 要 是 难以 将 所 有 处 理 器 和 内 存 连 接 起 来 。 为 解决 这 些 问 题 ， 许 多 设计 者 
干脆 就 放弃 了 共享 公共 内 存 的 思路 ， 转 而 研制 由 多 个 互 连 计算 机 组 成 的 系统 ， 这 些 计 算 机 都 
有 各 自 的 私有 内 存 ， 但 没有 公共 内 存 。 这 种 系统 就 是 多 计算 机 系统 。 多 计算 机 系统 中 的 CPU, 
有 时 也 称 为 松 耦 合 ， 与 多 处 理 器 系统 中 紧 耦 合 的 CPU 相对 应 。 

多 计算 机 系统 中 的 CPU 通过 互相 发 送 消 息 进行 通信 ， 就 像 发 E-mail 一 样 ， 但 速度 要 快 
得 多 。 对 大 型 系统 来 说 ， 将 每 个 计算 机 和 其 他 所 有 计算 机 连接 起 来 也 是 不 现实 的 ， 所 以 ， 经 
常用 到 2 维 或 3 维 网 格 、 树 、 环 等 拓扑 结构 。 这 样 ， 从 一 台 计 算 机 发 往 另 一 台 计 算 机 的 消息 
经 常 要 经 过 一 台 或 多 台中 间 计 算 机 或 交换 机 ， 才 能 到 达 目 的 地 。 不 过 ， 把 消息 传递 的 时 间 控 
制 在 几 微 秒 的 数量 级 上 并 不 很 难 。 目 前 ， 具 有 将 近 250 000 个 CPU 的 多 计算 机 系统 ， 如 IBM 
的 Blue Gene/P 已 研制 成 功 。 l 

为 把 多 处 理 器 系统 的 易于 编程 和 多 计算 机 系统 的 容易 制造 结合 起 来 ， 设 计 者 又 投入 到 设 
计 能 结合 这 两 种 优点 的 混合 计算 机 的 研究 中 ， 试 图 通过 建立 虚 公 共 内 存 来 解决 实 公共 内 存 带 
来 的 昂贵 成 本 。 我 们 在 第 8 章 再 详细 讨论 多 处 理 器 系统 和 多 计算 机 系统 。 


2.2 FR 


存储 器 是 计算 机 用 来 存放 程序 和 数据 的 地 方 。 一 些 计算 机 专家 ( 尤其 是 英国 专家 ) ES 
欢 用 store 或 storage 这 两 个 词 ， 而 不 用 memory， 尽 管 storage 这 个 词 越 来 越 特 指 磁盘 存储 
器 。 如 果 没 有 能 供 处 理 器 读 写 信息 的 存储 器 ， 那 么 就 不 会 有 今天 的 存储 程序 式 数字 计算 机 。 


2.2.1 存储 位 
存储 的 最 基本 单元 是 二 进 制 数 字 ， 即 二 进 制 位 。 一 位 可 以 存放 一 个 数字 0 或 1。 这 也 是 
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最 简单 的 情形 。( 只 能 存放 0 的 设备 无 法 形成 存储 器 ， 最 少 也 需要 保存 两 个 值 。) 

人 们 经 常 说 计算 机 使 用 二 进 制 算术 是 因为 它 “ 最 有 效 "。 这 其 中 的 意思 是 (虽然 很 少 有 人 
认识 到 ) 数字 信息 可 以 通过 区 分 某 些 连续 物理 量 的 不 同 值 来 存储 ， 如 电压 的 高 低 和 电流 的 大 
小 。 要 区 分 的 值 越 多 ， 相 邻 值 的 差别 就 越 小 ,存储 器 的 可 靠 性 就 越 低 。 而 二 进 制 数 仅 区 分 两 
个 值 ， 因 此 ， 这 是 对 数字 信息 进行 编码 的 最 可 靠 的 方法 。 如 果 你 对 二 进 制 数 不 熟悉 ， 可 参阅 
附录 A。 

有 些 计 算 机 ， 如 IBM 的 大 型 机 ， 宣 称 它们 除 二 进 制 外 还 支持 十 进 制 运算 ， 实 际 上 是 采用 
BCD (Binary Coded Decimal) 码 ， 即 二 - 十 进 制 码 ， 通 过 用 4 位 二 进 制 数 表 示 一 位 十 进 制 数 
字 来 实现 的 。4 位 可 以 提供 16 种 组 合 ， 用 其 中 10 种 表示 十 进 制 的 0 到 9， 另 外 6 种 组 合 不 用 。 
我 们 可 以 分 别 用 16 位 二 - 十 进 制 数 和 纯 二 进 制 数 将 1944 表示 如 下 : 

二 -十 进 制 : 0001 1001 0100 0100 ”三 进 制 : 0000011110011000 


16 位 二 -十进制 数 只 能 表示 从 0 到 9999 这 10 000 个 数 ， 而 16 位 纯 二 进 制 数 能 表示 
65 536 个 数 。 从 这 一 点 来 说 ， 二 进 制 表示 也 更 有 效 。 

考虑 一 下 ， 如 果 有 一 个 青年 天 才 电 子 工程 师 能 发 明 一 种 高 度 可 靠 的 电子 设备 ， 可 通过 将 
0 ~ 10 伏 的 电压 分 成 10 段 来 直接 存放 0 ~ 9 这 10 个 数字 ,那么 ,4 个 这 种 设备 就 可 以 存放 
从 0 ~ 9999 这 10 000 个 数 ， 因 为 它们 可 提供 10 000 种 组 合 。 当 然 这 种 设备 也 可 用 来 存放 二 
进 制 数 ， 只 用 其 中 的 0 和 1 就 行 了 ,但 在 这 种 情况 下 ，4 个 设备 只 能 提供 16 种 组 合 。 如 果 有 
了 这 种 设备 ， 十 进 制 数 显然 就 比 二 进 制 数 更 有 效 了 。 


2.2.2 AFH 


存储 器 由 许多 可 存放 一 段 信息 的 单元 (或 位 置 ) 组 成 ， 每 个 单元 有 一 个 编号 ， 程 序 可 以 
通过 这 个 编号 来 访问 这 个 单元 ， 这 个 编号 就 是 这 个 单元 的 地 址 。 若 存储 器 有 半 个 单元 ， 它 们 
的 地 址 就 是 0 ~ n-1。 存 储 器 中 所 有 单元 包含 的 位 数 相同 。 如 果 一 个 单元 包含 了 位， 那么 该 
单元 可 以 存放 2: 个 不 同 的 位 组 合 中 的 一 种 。 图 2-9 给 出 了 96 位 存储 器 的 3 种 不 同 组 成 形式 。 
请 注意 ， 相 邻 单元 的 地 址 是 连续 的 〈 完全 是 人 为 定义 的 结果 )。 
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图 2-9 96 位 存储 器 的 三 种 组 织 形式 
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使 用 二 进 制 数 ( 包括 八进制 和 十 六 进 制 ， 实 际 上 是 二 进 制 的 不 同 表 示 形 式 ) 的 计算 机 的 
存储 器 地 址 也 用 二 进 制 数 表示 。 车 地 址 为 m 位 ， 则 可 编 址 的 最 大 单元 数 是 2"。 例 如 ， 要 表示 
图 2-9a 所 示 的 0 ~ 11 这 12 个 地 址 ， 该 存储 器 地 - = 
HIRI A r, ATEI Pe on BAER 
则 只 需 3 位 地 址 就 够 了 。 地 址 位 数 由 存储 器 中 需 
直接 编 址 的 单元 的 最 大 数目 决定 ， 而 与 每 个 单元 
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存储 器 和 具有 22 个 存储 单元 的 64 位 存储 器 所 需 
的 地 址 位 都 是 12 位 。 
图 2-10 列 出 了 市 场 上 出 售 的 一 些 计算 机 的 每 
个 存储 单元 的 位 数 。 
存储 单元 最 重要 的 特性 是 它 是 最 小 的 可 编 址 
单位 。 近 年 来 ， 几 乎 所 有 的 计算 机 制造 商都 标准 Bo | ae ae 
化 为 8 位 存储 单元 ， 即 字 节 ， 有 时 也 称 为 八 位 组 。 
字 节 再 组 合成 字 。32 位 字 的 计算 机 每 字 有 4 个 字 图 2-10 计算 机 曾 用 到 的 每 存储 单元 的 位 数 
节 ，64 位 字 的 计算 机 每 字 有 8 个 字 节 。 大 多 数 计算 机 指令 都 是 对 字 进 行 操作 ， 如 将 两 字 相 加 
等 。 也 就 是 说 ，32 位 机 的 寄存 器 为 32 位 ， 指 令 的 操作 对 象 是 32 位 字 ; 64 位 机 的 寄存 器 为 
64 位 ， 移 位 、 加 、 减 等 指令 的 操作 对 象 也 是 64 位 字 。 


2.2.3 FPF 


每 个 字 中 的 字 节 地 址 可 以 从 左 到 右 或 从 右 到 左 编排 。 开 始 时 也 许 觉 得 这 两 种 选择 都 无 所 
谓 ， 但 我 们 马上 可 以 看 到 ， 它 们 还 是 大 有 关系 的 。 图 2-11a 描述 的 是 使 用 从 左 到 右 编 排 法 的 
计算 机 的 一 段 32 位 主 存 ，SPARC 和 IBM 大 型 机 的 字 节 地 址 就 是 这 样 编 的 。 图 2-11b 给 出 的 
是 使 用 从 右 到 左 编排 法 的 计算 机 ， 如 Intel 系列 。 前 一 种 情形 字 节 地 址 从 “大 ”的 一 端 (也 就 
是 字 节 的 高 位 ) 开始 编排 ， 称 为 大 端 派 计算 机 ， 反 过 来 图 2-11b 所 示 的 就 被 称 为 小 端 派 计算 
机 。 这 两 个 术语 起 源 于 英国 的 Jonathan Swift， 他 在 《 格 列 佛 游记 》 一 书 中 将 这 两 个 词 用 来 讽 
刺 那些 因为 争论 打 鸡 蛋 时 应 打破 大 端 还 是 小 端 而 引发 一 场 战争 的 政治 家 们 ， 后 来 在 1981 年 由 
Cohen 在 一 篇 轻松 的 文章 中 引用 到 了 计算 机 的 体系 结构 上 。 


地 址 大 端 派 小 端 派 地 址 
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< 一 一 ”32 位 字 一 一 > < 一 一 32 位 字 ”一 一 > 
a) 大 端 派 存储 器 b) 小 端 派 存储 器 
图 2-11 


必须 指出 的 是 ,不 管 是 上 述 哪 个 系统 ， 用 来 表示 一 个 32 位 整数 时 ， 比 如 说 6， 都 是 在 最 
右边 的 (最 低位 ) 3 位 上 存放 110， 全 字 的 前 29 位 都 是 0。 也 就 是 说 ， 在 大 端 派 计算 机 中 ， 有 
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110 这 3 位 应 该 是 字 节 3 (或 7、11 等 ) ; 而 在 小 端 派 计算 机 中 却 在 字 节 0 (或 4、8 等 ) 中 。 
而 两 种 情况 下 存放 这 个 整数 的 字 的 地 址 都 是 0。 

如 果 计 算 机 只 用 来 存放 整数 ， 那 么 不 会 有 任何 问题 。 然 而 ， 许 多 应 用 中 要 存放 的 是 整数 、 
字符 串 和 其 他 数据 类 型 的 混合 结构 。 例 如 ,我 们 要 在 计算 机 中 存放 一 个 由 一 个 字符 串 (员工 
姓名 ) 和 两 个 整数 ( 员工 年 龄 和 部 门 号 ) 组 成 的 简单 的 员工 记录 ， 字符 串 用 1 个 或 多 个 0 来 
填 满 整个 字 。 图 2-12a、b 分 别 给 出 了 用 大 端 派 和 小 端 派 计算 机 表示 同一 个 员工 Jim Smith ( 年 
HS 21, WJS 260=1 x 256+4 ) 的 不 同 存储 方式 。 


从 大 端 派 传 
大 端 派 送 到 小 端 派 








a) 大 端 派 计算 机 b) 小 端 派 计算 机 的 。” c)》 从 大 端 派 计算 机 往 小 端 派 、 d) 对 c) 进行 字 节 交换 
的 员工 记录 同一 条 记录 计算 机 传输 记录 的 结果 后 的 结果 


图 2-12 


两 种 表示 都 很 不 错 ， 内 部 也 完全 一 致 。 当 一 台 计 算 机 要 从 网 络 上 向 另 一 台 计 算 机 发 送 这 
个 记录 时 ,问题 出 来 了 。 假定 从 大 端 派 计算 机 中 向 小 端 派 中 发 送 上 面 这 个 记录 ， 每 次 一 个 字 
节 ， 从 字 节 0 一 直到 字 节 19。( 我 们 假定 字 节 中 的 位 在 传输 中 不 被 颠倒 ， 现 在 问题 已 经 够 多 
To) 即 大 端 派 的 字 节 0 送 到 小 端 派 的 字 节 0 中 ,依次 下 去 ， 如 图 2-12c 所 示 。 

当 小 端 派 计算 机 收 到 记录 ， 开 始 打印 员工 姓名 时 ， 输 出 正确 ， 但 输出 的 年 龄 将 是 
21 x2*， 部 门 号 也 完全 是 错误 的 。 错 误 的 产生 就 在 于 传输 中 通过 字 节 对 应 把 字 中 的 字符 串 反 
转 了 过 来 ， 这 是 应 该 的 ， 但 不 应 该 同时 把 字 节 中 的 整数 也 反 转 过 来 。 

一 个 显而易见 的 解决 办 法 是 用 软件 在 传输 完成 后 再 将 字 中 的 字 节 反 转 回来 ， 这 样 就 会 产 
生 如 图 2-12d 所 示 的 结果 ， 两 个 整数 没有 问题 了 ， 但 字符 串 被 转 成 了 “MIJTIMS”“H” 因 为 
被 夹 在 0 之 间 ， 再 也 无 法 识别 。 字 符 串 被 传 成 这 样 是 因为 当 被 计算 机 读 人 时， 计算 机 首先 遇 
到 第 0 个 字 节 ， 即 空格 ， 然 后 是 第 1 个 字 节 ， 字 母 M， 再 依次 是 后 续 的 字母 。 

这 个 问题 没有 简单 的 解决 办 法 。 可 行 但 不 太 全 面 的 一 条 途径 是 在 每 个 数据 项 前 面 加 上 一 
个 头 来 描述 其 后 的 数据 类 型 (字符 串 、 整 数 或 其 他 类 型 ) 和 数据 长 度 ， 使 接收 方 可 对 数据 进 
行 必要 的 转换 。 不 管 如 何 ， 我 们 都 应 该 清楚 ， 在 计算 机 之 间 交 换 数据 时 ， 如 果 在 字 节 编 址 顺 
序 上 没有 一 个 统一 的 标准 ， 总 是 一 件 麻烦 事 。 


2.2.4 23% 


由 于 电源 线 的 尖峰 电压 或 其 他 原因 ， 计 算 机 主 存 偶尔 也 会 出 错 。 为 防止 这 些 错误 ， 一 些 
主 存 中 采用 检 错 码 或 纠 错 码 ， 即 往 每 个 主 存 字 中 按 特别 的 规定 加 上 一 些 附 加 位 ， 当 从 主 存 中 
读 出 一 个 字 时 ， 用 这 些 附加 位 来 检验 主 存 是 否 出 错 。 

为 了 理解 怎样 检 错 和 纠 错 ， 有 必要 先 仔细 说 明 一 下 到 底 什 么 是 出 错 。 假 定 某 主 存 字 有 m 
位 数据 位 ， 我们 往 上 加 了 + 位 附加 位 ,或 称 为 校 验 位 。 其 总 长 度 为 n 位 ， 即 n=m+r。 我 们 把 
包括 m 位 数据 位 和 + 位 校 验 位 的 位 单元 叫做 n 位 码 字 。 
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任意 给 出 两 个 码 字 ， 比 如 ，10001001 和 10110001， 计 算 机 可 以 判断 出 它们 之 间 有 多 少 
对 应 位 不 同 。 上 述 两 个 码 字 就 有 3 位 不 同 。 判 断 的 方法 是 将 两 个 码 字 按 位 进行 逻辑 异 或 操 
作 ， 对 结果 中 为 1 的 位 计数 。 两 个 码 字 间 不 同 的 位 数 称 为 海上 明码 距 (Hamming，1950 )。 即 
如 果 两 个 码 字 的 海 明 码 距 为 a9， 将 其 中 一 个 码 字 改 为 男 一 个 码 字 需要 修改 4 位 。 例 如 ， 码 字 
11110001 和 00110000 的 海 明 码 距 为 3， 需 要 修改 3 位 才能 将 一 个 码 字 转 为 另 一 个 码 字 。 

对 于 m 位 的 内 存 字 ， 所 有 的 2 个 位 组 合 都 是 正确 编码 ， 但 如 果 加 上 校 验 位 ， 则 2 个 码 
字 中 只 有 2” 个 是 合法 的 。 如 果 从 内 存 字 中 读 出 一 个 非法 码 字 ,计算 机 就 能 判断 出 内 存 出 错 
了 。 给 定 求 校 验 位 的 算法 ， 就 可 以 得 到 所 有 的 合法 码 字 ， 从 它们 当中 可 以 找到 Hamming 码 距 
最 小 的 码 字 ， 这 个 码 距 就 是 所 有 这 些 码 字 的 Hamming 码 距 。 

编码 的 检 错 和 纠 错 能 力 和 它们 的 海 明 码 距 有 关 。 要 检查 4 位 错 ， 编 码 的 码 距 需要 d+, 
因为 这 样 编码 的 话 ， 一 个 码 字 4 位 出 错 的 话 就 不 会 成 为 男 外 一 个 合法 码 字 。 类 似 地 ， 为 纠 q 
位 错 ， 编 码 的 码 距 需要 2d+1， 这 样 ， 即 使 错 了 其 中 的 4 位 ， 它 和 原来 的 码 字 的 码 距 还 是 比 其 
他 任何 合法 码 距 要 小 ， 就 可 以 唯一 确定 它 的 合法 码 了 。 

下 面 我 们 举 一 个 检 错 码 的 例子 ， 即 往 数据 上 拼 上 一 位 奇偶 校 验 位 的 奇偶 校 验 码 。 根 据 原 
数据 中 1 的 位 数 选择 校 验 位 使 整个 码 字 中 1 的 位 数 为 偶数 (或 奇数 )。 这 种 编码 的 码 距 为 2， 
其 中 一 位 出 错 的 话 ， 造 成 的 错误 码 字 中 校 验 位 将 不 正确 。 也 就 是 说 ， 需 要 错 两 位 才能 使 一 个 
合法 码 字 错 成 另外 一 个 合法 码 字 。 这 就 可 以 用 来 检 出 一 位 错 。 每 当 从 内 存 中 读 到 校 验 码 不 对 
时 的 码 字 时 ， 将 触发 一 个 出 错 信 号 ， 程 序 停 止 执行 ， 但 至 少 不 会 导致 错误 结果 。 

作为 一 个 纠 错 码 的 简单 例子 ， 我们 考虑 下 面 只 有 四 个 合法 码 字 的 编码 : 


0000000000, 0000011111, 1111100000, 1111111111 


它们 的 码 距 为 5， 意 味 着 它们 能 纠 两 位 错 。 如 果 出 现 一 个 码 字 0000000111， 接 收 方 就 知 
道 原来 的 正确 码 字 应 该 是 0000011111( 如 果 假 定 不 出 现 两 位 以 上 错误 )。 当 然 ， 如 果 错 了 3 位 ， 
即 0000000000 变 成 了 0000000111， 错 误 就 无 法 纠正 了 。 

下 面 我 们 来 设计 一 个 编码 系统 ， 它 有 m 位 数据 位 ,r+ 位 校 验 位 ， 并 能 纠正 所 有 一 位 错 。 
对 2" 个 合法 的 内 存 字 中 的 每 一 个 ， 它 的 到 个 二 进 制 位 中 的 每 一 位 出 错 都 应 是 一 个 非法 字 ， 即 
每 个 合法 码 字 都 对 应 着 n 个 与 它 码 距 为 1 的 非法 码 字 ,它们 可 以 通过 将 合法 码 字 中 的 位 二 
进 制 位 逐一 改变 而 得 到 。 这 样 ，2” 个 合法 码 字 中 的 每 个 都 需要 有 ot] 个 码 字 与 之 对 应 ( 包括 
一 个 正确 码 字 和 个 可 能 的 非法 码 字 )。 又 因为 ”位 编码 最 多 可 能 有 2 个 组 合 ， 要 满足 要 求 ， 
则 必须 是 (x+1)2” < 2", 将 n=m+tr 代 入 ,得 到 (m+r+1) < 2。 给 定 闫 后 ， 就 可 得 到 要 纠正 一 
位 错 的 最 少校 验 位 。 图 2-13 给 出 了 不 同 字 长 内 存 所 需 的 最 少校 验 位 。 





图 2-13 能 纠 一 位 错 的 编码 的 最 少校 验 位 数 
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用 Richard Hamming ( 1950 ) 提出 的 算法 可 以 达到 上 述 理论 上 的 最 少 的 校 验 位 。 讨 论 海 
明 算法 之 前 ,我 们 先 看 一 个 图 示 ， 它 清楚 地 表示 出 一 个 4 位 字 的 纠 错 编码 。 图 2-14a 所 示 的 
Venn 图 有 3 个 圆 4、B 和 C， 它 们 一 起 组 成 了 7 个 区 域 。 作 为 例子 ， 我 们 把 一 个 4 位 内 存 字 
1100 放 到 域 AB, ABC. AC 和 BC， 每 个 域 中 1 位 〈 按 字母 序 )， 如 图 2-14a 所 示 。 


SR 


a) 数据 1100 b) 加 入 偶 校 验 位 c) 域 4C 中 的 位 出 错 
图 2-14 


下 一 步 我 们 向 3 个 空域 中 各 加 入 1 位 校 验 位 ， 使 其 构成 偶 校 验 ， 如 图 2-14b 所 示 。 根 据 
定义 , 3 个 圆 4、B 和 C 中 各 自 所 包含 的 位 之 和 都 应 是 偶数 。 圆 4 中 的 4 位 数 分 别 是 0、0、1、 
1， 加 起 来 的 和 是 2， 为 偶数 。 圆 B 中 的 4 位 数 是 1、1、0、0， 和 也 为 2， 是 偶数 。 最 后 ， 
C 也 一 样 。 本 例 中 ， 碰 巧 所 有 的 圆 各 位 之 和 都 是 2， 但 其 他 例子 中 它们 也 可 能 是 0 或 者 4。 
中 表示 了 有 4 位 数据 位 和 3 位 校 验 位 的 码 字 。 

现在 ， 我 们 假设 域 4C 中 的 位 出 错 ， 从 0 变 成 了 1， 如 图 2-14c 所 示 。 计 算 机 得 出 圆 4 和 
C 的 校 验 位 不 正确 (成 了 奇 校 验 )， 唯 一 的 只 改 一 位 来 修正 的 办 法 是 将 域 4C 改 回 0， 这 样 就 
改正 了 错误 。 通 过 这 种 方法 ， 计 算 机 可 自动 修复 1 位 内 存 错 。 

下 面 我 们 来 看 看 海 明 算法 如 何 对 任意 字 长 的 内 存 建 立 起 纠 错 码 。 在 海 明 码 中 ， 向 m 位 数 
据 位 上 加 r+ 位 校 验 位 ， 成 为 m+r 位 字 长 的 新 字 。 这 些 位 从 1 而 不 是 从 0 开始 计数 ， 最 左边 的 
位 (最 高 位 ) 为 第 1 位 。 所 有 2 的 整数 寡 的 位 是 校 验 位 ， 而 其 他 位 为 数据 位 。 例 如 ，16 位 字 
长 的 字 ， 需 加 入 5 位 校 验 位 ， 即 第 1、2、4、8 和 16 位 为 校 验 位 ， 其 他 的 都 是 数据 位 ， 存 储 
器 的 实际 字 长 是 21 位 。 我 们 将 ( 随意 地 ) 以 偶 校 验 为 例 。 

每 位 校 验 位 检验 特定 的 位 ， 其 值 使 被 校 验 的 位 中 1 的 个 数 为 偶数 。 每 位 校 验 位 负责 校 验 


的 位 数 分 别 为 : 
SEs Togs, F OE LTB T EA 
第 2 位 : 2. 3, 6. 7. 10, 11, 14, 15, 18, 19, 
HA re AaS E TUER 13514, 15120 216 
E gAn 18. 9. We hy 12 S TA, 155 
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— ALDER. B b TL ASB bi ba e b RR, HEP bi+bs+…+b=b。 例 如 ,第 5 
位 由 第 1 位 和 第 4 位 校 验 ， 因 为 5=1+4; 第 6 位 由 第 2 位 和 第 4 位 校 验 ， 因为 6=2+4， 等 等 。 

图 2-15 给 出 了 构建 16 位 字 1111000010101110 的 海 明 码 的 过 程 ， 得 到 的 21 位 编码 
字 为 001011100000101101110。 为 了 说 明 纠 错过 程 ， 我们 来 看 看 如 果 该 字 的 第 5 位 由 于 
电源 抖动 出 错 后 会 发 生 什 么 。 此 时 的 21 位 编码 字 为 001001100000101101110， 而 不 是 
001011100000101101110。 依 次 检查 5 位 校 验 码 ， 将 得 到 如 下 结果 : 

校 验 位 1: 不 正确 (1、3、5、7、9、11、13、15、17、19、21 位 中 共 含 有 5 个 1) 
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校 验 位 2: 正确 (2、3、6、7、10、11、14、15、18、19 位 中 共 含 有 6 个 1 )。 
校 验 位 4: 不 正确 (4、5、6、7、12、13、14、15、20、21 位 中 共 含 有 5 个 1 )。 
校 验 位 8: 正确 (8、9、10、11、12、13、14、15 位 中 共 含 有 2 个 1 )。 
校 验 位 16: 正确 (16、17、18、19、20、21 位 中 共 含 有 4 个 1 )。 

内 存 字 1111000010101110 


校 验 位 
图 2-15 为 内 存 字 1111000010101110 构建 海 明 码 ， 对 16 位 数据 增加 5 位 校 验 位 


由 于 使 用 的 是 偶 校 验 ，1、3、5、7、9、11、13、15、17、19、21 这 些 位 中 的 1 的 个 数 
应 该 是 偶数 。 出 错 的 位 必然 是 校 验 位 1 所 校 验 的 那些 位 ， 即 第 1、3、5、7、9、11、13、15、 
17、19、21 位 中 的 一 位 。 校 验 位 4 不 正确 ， 则 表明 第 4、5、6、7、12、13、14、15、20、21 
位 中 的 一 位 不 正确 。 这 样 ， 出 错 的 位 必然 是 上 述 两 个 列表 中 都 包含 的 位 ， 即 第 S、7、13 、15 
或 21 位。 然而 , 第 2 位 是 正确 的 ， 说明 第 7 和 第 15 位 是 正确 的 。 同 样 ， 第 8 位 的 正确 性 保证 
了 第 13 位 的 正确 ,第 16 位 的 正确 性 保证 了 第 21 位 的 正确 。 剩 下 的 只 有 第 $ 位 了 ， 出 错 的 就 
是 它 ， 由 于 读 出 的 第 5 位 是 1， 那么 正确 的 第 5 位 应 该 是 0。 这样， 就 纠正 了 第 5 位 的 错误 。 

发 现 出 错位 的 一 个 简单 办 法 是 先 计 算 所 有 校 验 位 ， 如 果 都 正确 ， 则 表明 没有 错误 (或 多 
位 出 错 )。 然 后 把 所 有 出 错 的 校 验 位 的 位 号 相 加 ， 第 1 位 校 验 位 的 位 号 为 1， 第 2 位 校 验 位 的 
位 号 为 2， 第 4 位 校 验 位 的 位 号 为 4， 如 此 类 推 , 求 出 的 和 就 是 出 错位 的 位 号 。 例 如 ， 如 果 校 
验 位 1 和 校 验 位 4 出 错 , 但 2、8、156 是 正确 的 ， 那么 就 是 第 5 (=1+4 ) 位 的 值 出 错 了 。 


2.25 高速 缓存 


一 直 以 来 ，CPU 总 是 比 存储 器 快 。 存 储 器 速度 的 每 次 提高 ， 都 伴随 着 CPU 速度 的 提高 ， 
保持 着 彼此 间 的 差距 。 实 际 上 ， 每 当 有 可 能 在 单 片 世 片上 放置 更 多 的 电路 时 ，CPU 的 设计 者 
总 是 用 它们 来 实现 流水 和 超标 量 运算 ， 使 CPU 变 得 更 快 。 存 储 器 的 设计 者 却 利用 这 些 技术 
来 提高 芯片 的 容量 ， 而 不 是 速度 ， 这 就 使 两 者 的 速度 差别 越 来 越 大 。 这 种 不 平衡 的 表现 就 是 
在 CPU 发 出 访问 存储 器 请 求 后 ， 要 经 过 多 个 CPU 周期 才能 读 到 存储 器 的 内 容 。 存 储 器 越 慢 ， 
CPU 等 待 的 周期 就 越 多 。 

前 面 我 们 提 到 过 ， 有 两 种 办 法 解决 这 个 问题 。 最 简单 的 是 遇 到 访问 存储 器 的 指令 时 ， 就 
启动 读 存储 器 的 动作 ， 然 后 继续 执行 下 面 的 指令 。 如 果 在 存储 器 的 内 容 还 没有 读 出 时 遇 到 要 
使 用 这 些 内 存 字 的 指令 ， 就 使 CPU 暂停 下 来 等 待 。 存 储 器 越 慢 ， 它 带 来 的 损失 越 大 。 例 如 ， 
如 果 5 条 指令 中 有 1 条 要 访问 主 存 ， 而 主 存 的 访问 周期 是 5 个 CPU 周期 ， 其 执行 时 间 就 是 使 
用 能 在 一 个 周期 内 访问 到 的 主 存 的 执行 时 间 的 2 倍 。 但 如 果 访 问 主 存 需要 50 个 周期 ， 那 执行 
时 间 将 增加 到 11 倍 (5 个 周期 执行 指令 ， 加 上 50 个 周期 等 待 存储 器 返回 数据 )。 

另 一 种 办 法 是 不 让 CPU 暂停 执行 ， 而 要 求 编译 器 在 读 到 内 容 之 前 不 要 生成 使 用 该 内 容 的 
指令 。 问 题 是 这 种 办 法 说 起 来 容易 做 起 来 难 。 在 LOAD 指令 之 后 经 常 无 事 可 做 ， 所 以 编译 器 
只 能 插入 NOP (无 操作 ) 指令 ， 不 做 任何 操作 ， 只 占用 一 个 时 间 单 位 。 实 际 上 ， 这 是 用 软件 
暂停 代替 硬件 暂停 ， 但 它们 对 性 能 的 影响 是 一 样 的 。 
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事实 上 ， 这 个 问题 不 是 技术 问题 ， 而 是 一 个 经 济 问 题 。 计 算 机 工程 师 完全 可 以 造 出 和 
CPU 一 样 快 的 存储 器 ， 但 是 ， 如 果 要 求全 速 运行 ， 这 种 高 速 存储 器 只 能 内 置 在 CPU 芯片 中 
(因为 数据 经 过 总 线 就 太 慢 了 )。 在 CPU 中 放置 大 容量 存储 器 将 使 CPU 变 大 ， 价 格 提高 ， 即 
使 价格 不 成 问题 ，CPU 芯片 的 大 小 也 有 一 个 限度 。 这 样 ， 我 们 就 需要 在 小 容量 高 速 存储 器 和 
大 容量 低速 存储 器 之 间 做 选择 。 当 然 我 们 更 愿意 要 廉价 的 大 容量 高 速 存 储 器 。 

有 意思 的 是 ， 从 技术 上 已 经 可 能 将 小 容量 的 高 速 存 储 器 和 大 容量 的 低速 存储 器 组 合 在 一 
起 ， 以 适中 的 价格 得 到 速度 和 高 速 存储 器 差别 不 大 的 大 容量 存储 器 。 小 容量 高 速 存储 器 称 为 
高 速 缓存 (cache， 来 自 法 语 cacher， 意 思 是 隐藏 ， 发 音 是 “cash”)。 下 面 我 们 简单 地 介绍 如 
何 使 用 高 速 缓存 和 它 的 工作 原理 ， 到 第 4 章 再 进行 详细 讨论 。 

高 速 缓存 的 工作 原理 十 分 简单 : 把 读 取 频 度 最 高 的 存储 器 内 容 保 存在 高 速 缓存 中 。CPU 
需要 读 和 人 存储 器 内 容 时 ， 首 先 在 高 速 缓存 中 查找 。 只 有 在 高 速 缓存 中 找 不 到 时 ， 才 去 读 主 存 
储 器 中 的 内 容 。 只 要 在 高 速 缓存 中 有 足够 多 的 内 容 ， 就 可 以 极 大 地 降低 平均 访问 时 间 。 

这 样 ， 高 速 缓存 的 成 功 和 失败 就 取决 于 将 哪些 内 容 放 到 高 速 缓存 中 。 近 些 年 来 ， 人们 已 
经 认识 到 ， 程 序 并 不 是 完全 随机 地 访问 存储 器 。 如 果 CPU 访问 存储 器 地 址 A， 那 么 它 下 一 
次 对 存储 器 的 访问 一 般 来 说 是 临近 A 的 ， 程 序 本 身 就 是 这 样 的 例子 。 除 分 支 转 移 和 过 程 调用 
外 ， 指 令 是 从 相 邻 的 存储 器 单元 中 取出 的 。 进 一 步 说 ， 大 多 数 程序 的 执行 时 间 是 消耗 在 循环 
语句 中 的 ， 有 限 的 语句 被 执行 多 遍 。 与 此 类 似 ， 和 矩阵 运算 程序 在 访问 其 他 存储 器 单元 之 前 一 
般 也 要 访问 同一 矩阵 很 多 次 。 

从 上 面 的 例子 中 ， 我 们 可 以 得 出 一 个 结论 ， 即 在 短 时 间 内 ，CPU 对 存储 器 的 访问 总 是 局 
限 在 整个 存储 器 的 一 小 部 分 中 ， 这 称 为 局 部 性 原理 ， 
它 构成 了 所 有 高 速 缓存 系统 的 基础 。 总 的 思路 是 访 
问 存储 器 的 某 个 字 后 ， 将 该 字 和 它 的 相 邻 单元 从 低 
速 的 大 容量 存储 器 系统 中 取 到 高 速 缓存 中 ， 这 样 ， 
下 次 访问 它 时 ， 可 以 访问 得 快 一 些 。 图 2-16 给 出 了 
CPU、 高 速 缓存 和 主 存储 器 的 一 个 常用 结构 。 当 在 
一 个 短 时 间 片 内 对 一 个 字 读 写 丰 次 时 ，CPU 就 只 要 
访问 低速 存储 器 一 次 ， 另 外 k-1 次 就 可 以 访问 快速 
存储 器 。 访 问 次 数 越 多 ， 总 体 性 能 越 好 。 

我 们 可 以 定义 命中 率 来 说 明 CPU 的 所 有 对 存储 器 的 访问 次 数 中 在 高 速 缓存 中 得 到 满足 的 
比率 。 用 e 表示 访问 一 次 高 速 缓存 的 时 间 ，m 表示 访问 一 次 主 存储 器 的 时 间 ，h 表示 命中 率 ， 
那么 ， 上 面 例子 中 ,命中 率 h 且 (k-1)/k。 男 外 ， 也 有 一 些 书 中 定义 缺失 率 ， 为 1-h。 

根据 上 述 定义 ,我 们 可 以 得 出 平均 访问 时 间 如 下 : 

平均 访问 时 间 =c+(1-h)m 

如 果 h 一 1， 即 所 有 的 存储 器 访问 都 可 在 高 速 缓存 中 满足 ,平均 访问 时 间 趋 向 于 c。 反 过 
K, WR /一 0， 即 每 次 访问 都 要 访问 低速 的 存储 器 ， 那 么 平均 访问 时 间 趋 向 于 ctm， 首 先是 
检查 一 次 高 速 缓存 (不 成 功 ) 用 时 c， 然 后 再 访问 一 次 主 存储 器 ， 需 用 时 m。 在 某 些 系 统 中 ， 
对 主 存储 器 的 访问 可 以 和 检查 高 速 缓存 并 行进 行 ， 这 样 ， 如 果 高 速 缓存 访问 失败 ， 则 访问 主 
存储 器 的 周期 已 经 启动 。 这 种 实现 策略 要 求 在 高 速 缓存 命中 的 情况 下 能 终止 对 主 存储 器 的 访 
问 ， 增 加 了 实现 的 难度 。 

以 局 部 性 原理 为 指导 ， 我 们 把 主 存储 器 和 高 速 缓存 分 为 固定 大 小 的 块 。 当 我 们 讨论 高 速 





总 线 

K 2-16 高速 缓 存 逻 辑 上 处 于 CPU MEF 
储 器 之 间 。 物 理 上 高 速 缓存 的 位 
置 有 多 种 可 能 
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缓存 中 的 块 时 ， 它 们 通常 是 指 cache $ (cache line )。 当 访问 高 速 缓存 失败 ， 整 个 cache RH 
从 主 存储 器 加 载 ， 而 不 仅 加 载 被 访问 的 那个 字 。 例 如 ， 如 果 块 大 小 为 64 字 节 ， 访 问 主 存储 器 
地 址 260 的 失败 将 把 从 地 址 256 ~ 319 的 整 块 内 容 加 载 至 高 速 缓存 。 只 要 运气 不 太 差 的 话 ， 
很 快 就 会 用 到 该 块 中 的 其 他 字 。 由 于 从 主 存储 器 中 一 次 取 大 个 字 比 用 大 次 取 一 个 字 要 快 ， 所 
以 整 块 读 入 的 操作 方式 更 高 效 一 些 。 而 且 ， 块 越 大 ， 相 同 容 量 的 高 速 缓存 中 的 块 就 越 少 ， 额 
外 的 开销 也 就 小 。 最 后 ， 即 使 是 32 位 的 计算 机 ， 目 前 也 有 许多 能 在 1 个 总 线 周 期 并 行 传送 
64 或 者 128 位 的 数据 。 

对 高 性 能 CPU 来 说 ， 高 速 缓存 设计 的 重要 性 与 日 俱 增 。 第 一 个 问题 是 高 速 缓存 的 容 
量 ， 容 量 越 大 ， 人 性 能 越 好 ， 但 访问 的 速度 越 慢 ， 成 本 也 越 高 。 第 二 个 问题 是 高 速 缓存 块 的 大 
小 ，16KB 的 高 速 缓存 可 以 分 为 1024 块 ， 每 块 大 小 为 16 字 节 ,也 可 分 为 每 块 大 小 为 8 字 节 的 


- 2048 块 ， 还 有 其 他 分 法 。 第 三 个 问题 是 如 何 组 织 高 速 缓存 ， 即 高 速 缓存 中 字 如 何 和 主 存储 器 


的 字 相 对 应 。 我 们 将 在 第 4 章 详细 讨论 高 速 缓存 。 

第 4 个 问题 是 指令 和 数据 是 共享 一 个 高 速 缓存 还 是 分 别 用 不 同 的 高 速 缓存 存放 。 使 用 整 
体高 速 缓 存 ( 指令 和 数据 共享 同一 高 速 缓存 ) 设计 简单 ， 并 能 在 取 指 和 取 数 之 间 自 动 平衡 。 
不 过 ， 当 前 的 趋势 是 采用 分 体高 速 缓 存 ， 即 指令 用 一 个 高 速 缓存 而 数据 用 另外 一 个 ， 它 也 称 
为 哈佛 体系 结构 ， 可 追溯 到 Howard Aiken 的 Mark II 计算 机 ， 它 首先 采用 不 同 的 存储 器 存放 
数据 和 指令 。 设 计 者 走向 这 个 方向 的 动力 是 CPU 流水 技术 的 广泛 使 用 ， 在 取 指 部 件 取 指令 的 
同时 ， 取 数 部 件 要 取 数 据 。 分 体高 速 缓存 支持 并 行 访问 ， 而 整体 缓存 就 不 能 。 并 且 ， 指 令 在 
程序 执行 中 一 般 不 需要 修改 ， 指 令 高 速 缓存 中 的 内 容 不 需要 写 回 到 主 存储 器 中 。 

最 后 ， 第 5 个 问题 是 高 速 缓存 的 个 数 。 目 前 ，CPU 芯片 内 有 一 个 主 高 速 缓存 ， 在 CPU 芯 
片 之 外 但 同一 封装 中 有 一 个 辅助 高 速 缓存 ， 还 有 第 三 个 高 速 缓存 在 封装 之 外 的 体系 结构 已 经 
十 分 普遍 。 


2.26 内存 封 装 及 其 类 型 


从 半导体 存储 器 诞生 起 ， 到 20 世纪 90 年 代 早 期 ， 内 存 都 是 以 芯片 为 单位 制造 、 销 售 和 
安装 的 。 芯 片 的 容量 从 1K 位 到 1M 位 ， 甚 至 更 高 ， 但 每 块 芯片 都 是 独立 的 销售 单位 。 早 期 的 
PC 机 都 备 有 内 存 插 槽 ， 用 户 在 需要 扩展 内 存 时 ， 可 以 再 搬入 新 的 存储 器 芯片 。 

从 20 世纪 90 年 代 早 期 开始 ， 内 存 封装 采用 了 新 方法 。 通 常 是 将 一 组 芯片 ， 一 般 是 8 或 
16 片 一 起 安装 在 一 块 印刷 电路 板 上 出 售 。 根 据 电 路 板 上 的 连 线 是 一 面 还 是 双 面 ， 一 般 把 内 存 
条 分 为 单 面 接头 内 存 条 (Single Inline Memory Module, SIMM) 和 双 面 接头 内 存 条 (Dual 
Inline Memory Module, DIMM )， 主 要 取决 于 板子 的 单 面 或 双 面 是 否 有 一 排 接线 。SIMM 单 
面 有 接线 ， 共 72 根 ， 每 个 时 钟 周期 传输 32 位 数据 。SIMM 现今 已 经 不 常见 到 了 。DIMM iÑ 
常 在 电路 板 的 双 面 都 有 接线 ， 每 面 有 120 根 接线 ,共有 240 根 ， 每 个 时 钟 周期 传输 64 位 数 
据 。 当 前 最 常见 的 内 存 是 DDR3 的 DIMM， 这 是 双 信 数据 速率 (Double Data-Rate, DDR) 的 
第 3 版。 图 2-17 给 出 了 一 条 DIMM 的 简单 示 AT, 


意图 。 256MB 
典型 的 DIMM 内 存 条 上 有 8 块 容量 为 UA 内 存 芯片 
256MB 的 芯片 ， 这 样 ， 整 个 内 存 条 的 容量 ; Tse 一 接线 


2GB。 多 数 计算 机 上 提供 插入 4 条 内 存 条 的 。” 图 2.17 4GB DIMM 的 俯视 图 ， 单 面 由 8 片 
空间 ， 如 果 使 用 2GB 内 存 条 ， 最 大 内 存 可 达 256MB 的 芯片 组 成 。 另 一 面 与 此 相同 
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到 8GB。 需 要 的 话 ， 今 后 还 可 以 替换 成 容量 更 大 的 内 存 条 来 扩充 内 存 。 

笔记 本 型 计算 机 中 用 到 的 双 面 接头 内 存 条 ， 体 积 比较 小 一 些 ， 叫 做 小 型 DIMM (Small 
Outline DIMM, SO-DIMM )。DIMM 内 存 条 的 连 线 中 也 可 以 有 附加 的 校 验 位 或 纠 错位 ， 由 于 
内 存 条 的 平均 出 错 率 为 每 10 年 1 次 ， 对 大 多 数 普 通 计算 机 来 说 ， 检 错 和 纠 错位 就 省 略 了 。 


2.3 ”辅助 存储 器 


不 管 主 存储 器 的 容量 有 多 大 ， 它 总 是 无 法 满足 人 们 的 期 望 。 其 主要 原因 是 ， 随 着 技术 的 
进步 ， 人 们 开始 希望 存放 以 前 完全 属于 科学 幻想 领域 的 信息 ， 存 储 器 的 存储 能 力 的 扩大 永远 无 
法 赶 上 需要 它 存放 的 信息 的 膨胀 。 例 如 ， 如 果 美 国政 府 的 预算 开支 要 求全 部 由 其 政府 机 构 自 行 
筹集 ， 那 么 美国 国会 图 书馆 可 能 就 会 将 它 所 有 的 藏书 数字 化 ， 并 冠 以 “人 类 知识 大 全 ， 每 套 仅 
299.95 美元 ”的 名 义 出 售 。 粗 略 计算 ， 如 果 5 亿 本 书 ， 以 平均 每 本 IM 字 节 的 文本 容量 和 IM 
字 节 的 压缩 图 像 计算 ， 所 需 的 存储 容量 就 达 10 字 节 ， 即 100TB。 另 外 ， 还 有 50000 部 电影 
也 要 存放 在 这 当中 。 如 此 巨 量 的 信息 至 少 在 今后 的 几 十 年 内 ， 是 无 法 存放 在 主 存储 器 中 的 。 


2.3.1 层次 存储 结构 


存储 大 量 数 据 的 传统 办 法 是 采用 如 图 2-18 所 示 的 层次 存储 结构 。 最 上 层 是 CPU 中 的 寄 
存 器 ， 其 存 取 速 度 可 以 满足 CPU 的 要 求 。 
下 面 一 层 是 高 速 缓存 ， 目 前 的 存储 容量 在 
32KB 到 几 MB 之 间 。 再 往 下 是 主 存储 器 ， 
容量 从 入 门 级 系统 的 1GB 到 高 端 系统 的 数 
百 GB 都 有 。 然 后 是 固态 硬盘 和 磁盘 存储 
器 ， 当 前 用 于 永久 存放 数据 的 主力 存储 介 
质 。 最 后 ， 还 有 用 于 后 备 存储 的 磁带 和 光 
盘存 储 器 。 

层次 结构 自 上 而 下 有 3 个 关键 参数 逐 
渐 增 大 。 首 先是 访问 时 间 逐 渐 增 长 。CPU 
中 的 寄存 器 的 访问 时 间 是 1 纳 秒 甚 至 更 少 ， 
高 速 缓存 的 访问 时 间 是 CPU 寄存 器 访问 时 间 的 几 倍 ， 主 存储 器 的 访问 时 间 是 10 纳 秒 左 右 。 
再 往 后 是 访问 时 间 的 突然 增 大 ， 固 态 盘 的 访问 时 间 要 比 内 存 慢 至 少 10 倍 ， 磁 盘 则 要 慢 数 百 
倍 。 如 果 加 上 介质 的 取出 和 插入 驱动 器 的 时 间 ， 磁 带 和 光盘 的 访问 时 间 就 得 以 秒 来 计量 。 

第 二 个 参数 是 存储 容量 逐渐 增 大 。CPU 中 的 寄存 器 也 许 有 128 个 字 节 就 很 合适 ， 高 速 组 
存 可 以 是 几 十 MB， 主 存储 器 在 几 个 GB， 固 盘 是 数 百 GB ， 磁 盘 的 容量 是 TB 级 。 磁 带 和 光 
盘 一 般 脱 机 存放 ， 甚 容量 只 局 限于 用 户 的 预算 。 

第 三 ， 用 相同 数量 的 钱 能 购买 到 的 存储 容量 ， 即 位 / 价 比 ， 逐 渐 增 大 。 尽 管 存储 器 的 实 
际 价格 变化 很 快 ， 但 主 存 的 价格 应 该 是 几 个 美元 /MB， 固 态 盘 的 价格 是 几 个 美元 /GB， 磁 盘 
和 磁带 的 价格 是 几 个 美 分 /GB。 

我 们 已 经 介绍 了 寄存 器 、 高 速 缓存 和 主 存储 器 ， 下 面 的 几 节 我 们 要 介绍 磁盘 和 固态 盘 ， 
然后 是 光盘 存储 器 。 由 于 磁带 除了 备份 外 很 少 使 用 ， 加 之 也 实在 没有 什么 值得 介绍 的 ， 我 们 
在 本 书 中 就 不 再 介绍 。 





图 2-18 5 层 层 次 存储 结构 
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2.3.2 ”磁盘 


磁盘 由 一 个 或 多 个 表面 涂 有 磁性 材料 的 铝 质 浅 盘 组 成 ， 早 期 的 铝 盘 直 径 达 50cm， 但 现在 
一 般 也 就 是 3 ~ 9cm， 用 于 笔记 本 型 计算 机 的 磁盘 直径 已 经 在 3cm 以 下 ， 而 且 还 在 缩小 。 内 
含 一 个 引导 线圈 的 磁头 正好 浮 在 磁盘 表面 ， 中 间隔 着 薄 薄 的 一 层 空气 垫 。 当 磁头 中 有 正 或 负电 
流通 过 时 ， 就 可 磁化 磁头 正 下 方 的 磁盘 表面 ， 根 据 驱 动 电流 的 极 性 不 同 ， 使 磁性 颗粒 朝 左 或 朝 
右 偏转 。 而 当 磁 头 通 过 磁性 区 域 时 ， 将 被 感应 出 正 电流 或 负电 流 ， 这 样 ， 就 读 出 了 存在 磁盘 上 
的 数据 位 。 使 磁盘 在 磁头 下 面 旋转 ， 数 据 位 就 可 以 写 和 人 磁盘 或 从 盘 中 读 出 。 图 2-19 是 一 个 磁 
道 的 几何 示意 图 。 
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图 2-19 ”磁道 的 一 部 分 ， 仅 给 出 两 个 扇 区 


我 们 称 磁盘 旋转 一 周 后 写 人 磁盘 的 数据 位 形成 的 环形 为 磁道 (track )。 每 个 磁道 可 以 划分 
为 固定 长 度 的 扇 区 ( sector )， 每 个 扇 区 一 般 可 存放 512 字 节 的 数据 区 ， 数 据 区 前 有 用 于 在 读 
写 之 前 对 磁头 进行 同步 的 前 导 区 《〈preamble )， 数 据 区 之 后 是 纠 错 码 ( Error-Corretcing Code, 
ECC )， 即 海 明 码 或 更 常用 的 能 纠 多 个 错 的 Reed-Solomon 码 。 连 续 的 两 个 扇 区 之 间 是 隔离 带 
(intersector gap )。 一 些 制造 商 以 未 格式 化 时 的 容量 来 标识 他 们 的 磁盘 (好像 磁 盘 中 只 有 数据 
一 样 )， 但 多 数 诚实 的 制造 商 给 出 的 还 是 格式 化 后 的 容量 ， 没 有 把 前 导 区 、 纠 错 码 和 隔离 带 的 
容量 作为 数据 区 容量 计算 在 内 。 格 式 化 后 的 容量 一 般 比 未 格式 化 时 的 容量 少 15% 左右 。 

所 有 磁盘 都 有 一 个 能 从 磁盘 旋转 的 轴 心 伸缩 到 不 同 半径 的 磁盘 臂 ， 磁 盘 臂 能 伸展 到 的 每 
个 半径 对 应 着 一 个 不 同 的 磁道 ， 这 样 ， 磁 道 就 是 围绕 着 轴 心 的 一 系列 同心 圆 。 磁 道 的 宽度 取 
决 于 磁头 的 大 小 和 磁头 轴 向 伸缩 的 精确 度 。 在 现 有 技术 下 ， 每 厘米 磁盘 可 以 有 50 000 个 磁 
道 ， 即 磁道 宽度 为 200 纳米 (1 纳米 =1/1 000 000 毫米 )。 值 得 注意 的 是 磁道 在 物理 上 并 不 是 
磁盘 表面 的 四 槽 ， 而 只 是 简单 地 由 磁性 材料 组 成 的 圆 环 ， 中 间 有 隔离 区 将 磁道 和 它 里 面 的 磁 
道 和 外 面 的 磁道 隔 开 。  、 

磁道 环 上 的 位 密度 和 轴 向 密度 不 同 ， 换 句 话说 ， 沿 磁道 环 上 每 毫米 中 数据 位 数 和 从 磁盘 
中 心 往外 每 毫米 中 数据 位 数 是 不 一 样 的 。 磁 道 环 上 的 位 密度 主要 取决 于 磁 表 面 的 纯度 和 空气 
质量 ， 目 前 的 磁盘 能 达到 的 密度 是 250 亿 位 /厘米 。 而 轴 向 密度 取决 于 磁盘 臂 寻 道 的 精度 。 
这 样 ， 轴 向 位 距 是 环 向 位 距 的 许多 倍 ， 正 如 图 2-19 中 所 示 。 

超 高 密度 的 磁盘 使 用 了 一 项 新 的 磁 记 录 技 术 ， 使 存储 一 位 信息 的 磁 颗 粒 的 “长 ”的 方 
向 不 再 沿 着 磁道 方向 ， 而 是 垂直 于 磁道 ， 深 入 到 铁 氧 化 物 中 。 这 项 技术 就 是 所 谓 的 “垂直 记 
录 ”， 它 能 提供 高 达 1000 亿 位 /厘米 的 数据 存储 密度 ， 有 望 在 近年 内 成 为 磁盘 的 主流 技术 。 

为 了 得 到 高 质量 的 磁 表 面 和 空气 ， 大 多 数 磁 盘 在 出 厂 前 已 密封 好 ， 以 防止 灰尘 进入 。 这 
种 盘 最 初 称 为 “ 温 彻 斯 特 磁盘 * ， 因 为 (IBM 制造 的 ) 第 一 块 这 种 盘 有 30MB 密封 的 固定 存储 
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容量 ， 还 有 30MB 可 移 走 的 存储 容量 。 我 推测 ， 这 种 30-30 的 磁盘 使 人 们 想起 在 美国 开国 战争 
中 发 挥 重要 作用 的 温 彻 斯 特 30-30 来 福 检 而 得 和 名。 现在， 它们 被 简单 地 称 为 硬盘 ， 以 和 在 最 早 
期 的 个 人 计算 机 中 用 到 过 而 已 经 消失 很 久 的 软盘 加 以 区 分 。 在 这 个 行当 ， 对 任何 东西 起 名 且 
保证 在 30 年 后 它 还 不 被 人 嘲笑 是 十 分 困难 的 。 gas Ca ER 

WSCRERSRABS RMR, RT 
如 图 2-20 所 示 。 每 个 磁 表 面 都 有 自己 的 磁头 sie 
和 磁盘 臂 ， 所 有 的 磁盘 臂 连 在 一 起 ， 因 此 它们 ms 
同时 指向 同一 轴 向 位 置 。 我 们 把 位 于 同一 半径 。” 袖 面 4 
的 磁道 的 集合 称 为 柱 面 。 目 前 的 PC 机 和 服务 S at eat 
器 用 的 磁盘 一 般 有 1 ~ 12 个 盘 片 , 有 2 ~ 24 磁 面 2 
个 记录 数据 的 磁 面 。 高 端 磁盘 能 在 单个 盘 片上 T 
存储 1TB 的 数据 ， 而 且 还 在 随时 间 增 长 。 磁 面 0 

磁盘 的 性 能 取决 于 许多 因素 。 要 读 写 扇 
区 ,首先 需 将 磁盘 辟 轴 向 移动 到 相应 半径 的 0 A a Reet 
位 置 ， 即 寻 道 。 磁 盘 的 平均 寻 道 时 间 ( 任意 磁道 之 间 ) 为 5 ~ 10 毫秒 ， 尽 管 在 紧邻 的 磁道 之 
间 的 寻 道 时 间 已 降 到 1 毫秒 以 下 。 磁 头 定位 好 以 后 ， 还 需 等 待 相应 的 扇 区 旋转 到 磁头 下 方 ， 
这 段 时 间 称 为 旋转 延 时 。 绝 大 多 数 磁 盘 的 转速 为 5400、7200 或 10 800 转 /分钟 ， 所 以 平均 旋 
转 延 时 (旋转 半 圈 ) 为 3 ~ 6 毫秒 。 数 据 读 写 时 间 取 决 于 磁 颗 粒 的 线性 密度 和 转速 ， 以 当前 
典型 的 内 部 传输 速率 150MB/s 计 ， 一 个 512 字 节 的 扇 区 需要 约 3.5 微 秒 。 如 此 看 来 ， 寻 道 时 
间 和 旋转 延 时 是 影响 磁盘 性 能 的 主要 因素 ， 满 磁盘 随机 读 取 扇 区 的 操作 尤其 不 可 取 。 

值得 指出 的 是 ， 由 于 前 导 区 、 纠 错 码 、 隔 离 带 、 寻 道 时 间 和 旋转 延 时 等 因素 的 影响 ， 磁 
盘 驱 动 器 的 最 大 高 峰 数据 速度 和 最 大 持续 数据 速度 之 间 有 很 大 差别 。 最 大 高 峰 数 据 速度 是 磁 
头 位 于 第 一 个 数据 位 上 时 的 数据 传输 速度 ， 计 算 机 应 能 响应 以 这 个 速度 传输 的 数据 ， 尽 管 磁 
盘 驱动 器 只 能 保持 这 个 速度 一 个 扇 区 。 但 对 于 某 些 应 用 ， 如 多 媒体 系统 来 说 ， 重 要 的 是 几 秒 
钟 内 的 持续 数据 速度 ， 这 就 还 需要 考虑 必需 的 寻 道 时 间 和 旋转 延迟 。 

稍微 回忆 一 下 我 们 早 前 学 过 的 数学 知识 ， 计 算 圆 的 周 长 的 公式 为 c=2xr， 不 难得 出 最 外 
圈 磁 道 的 周 长 比 最 里 圈 的 周 长 要 长 。 由 于 磁盘 以 相同 的 角速度 旋转 ， 不 管 磁头 在 哪个 位 置 ， 
都 要 解决 这 个 问题 。 在 旧式 磁盘 中 ， 制 造 商 
们 使 最 里 圈 的 磁道 的 磁 颗 粒 密 度 最 高 ， 外 面 
的 磁道 逐渐 降低 磁 颗 粒 密度 来 解决 这 个 问题 。 
例如 ， 如 果 一 个 磁盘 的 每 个 磁道 有 18 个 扇 
区 ， 那 么 每 个 扇 区 占有 圆周 的 20 度 角 ， 不 管 
它 处 于 哪个 柱 面 。 

现在 ， 我 们 使 用 的 是 新 的 策略 。 首 先 将 
柱 面 从 最 里 圈 的 磁道 到 最 外 圈 的 磁道 划分 成 不 
同 的 区 域 (一 般 每 个 磁盘 10 ~ 30 个 区 域 )， 
每 个 区 域 中 磁道 的 扇 区 数 逐 渐 增 加 。 这 样 ， 就 
在 不 增加 磁道 数 的 情况 下 扩充 了 磁盘 容量 ， 满 
足 了 人 们 对 磁盘 容量 的 要 求 。 所 有 扇 区 的 大 小 = 
还 保持 不 变 。 图 2-21 是 一 个 有 5 个 区 的 磁盘 。 图 2-21 有 5 个 区 的 磁盘 ， 每 个 区 有 多 个 磁道 
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与 磁盘 驱动 器 相连 的 是 控制 它 的 芯片 一 一 磁盘 控制 器 ， 有 些 控制 器 中 甚至 有 一 个 完整 的 
CPU。 控 制 器 的 任务 包括 接受 软件 发 出 的 如 READ、WRITE 和 FORMAT ( 往 磁 盘 中 写 人 所 有 
前 导 区 ) 等 命令 ， 控 制 磁盘 臂 的 运动 ， 发 现 和 纠正 错误 ， 将 从 内 存 中 读 来 的 8 位 字 节 转换 为 
位 串 写 到 磁盘 中 ， 或 相反 ， 将 磁盘 中 读 出 的 位 串 转换 为 8 位 字 节 数据 。 还 有 些 控制 器 可 以 对 
多 个 出 区 进行 缓冲 ， 缓 存 一 些 扇 区 的 内 容 以 备 将 来 使 用 ， 还 可 以 重新 映射 坏 扇 区 。 最 后 的 功 
能 是 由 于 坏 扇 区 ( 被 永久 磁化 ) 的 存在 而 加 上 的 。 当 控制 器 发 现 坏 扇 区 时 ， 可 以 用 预 留 在 每 
个 柱 面 或 区 域 的 一 个 空白 扇 区 替换 它 。 


2.3.3 IDE Æ 


现代 个 人 计算 机 的 硬盘 最 早 是 从 IBM PC XT 的 10MB Seagate 硬盘 发 展 而 来 ， 其 控制 器 
是 Xebec 磁盘 控制 器 ， 有 单独 的 一 块 硬盘 卡 。Seagate 硬盘 有 4 个 磁头 ，306 个 柱 面 ， 每 道 有 
17 个 扇 区 ， 控 制 器 可 同时 管理 两 块 硬盘 。 操 作 系统 通过 将 参数 写 人 CPU 的 寄存 器 后 ， 调 用 
PC 内 置 只 读 存 储 器 中 的 基本 输入 / 输出 系统 (Basic Input Output System, BIOS ) 对 硬盘 进行 
读 写 ， 由 BIOS 发 出 机 器 指令 到 硬盘 控制 器 中 的 寄存 器 ， 指 示 其 传输 数据 。 

硬盘 技术 很 快 ， 到 20 世纪 80 年 代 中 叶 ， 控 制 器 已 经 从 在 单独 的 硬盘 卡 上 发 展 到 和 驱动 
器 集成 在 一 起 ， 组 成 集成 驱动 器 电路 ( Integrated Drive Electronic, IDE), 但 由 于 要 保持 向 后 
兼容 ， 所 以 调用 BIOS 的 读 写 方式 一 直 没 有 改变 。 这 种 方式 通过 给 定 扇 区 的 磁头 号 、 柱 面 号 
和 扇 区 号 对 扁 区 进行 寻 址 。 磁 头 和 柱 面 从 0 开始 编号 ， 而 扇 区 号 却 从 1 开始 。 这 恐怕 是 由 于 
第 一 个 BIOS 程序 员 的 错误 造成 的 ， 他 用 8088 汇编 语言 完成 了 程序 主体 部 分 。 程 序 中 ， 磁 头 
号 用 4 位 二 进 制 数 表 示 ， 扇 区 号 6 位 ， 柱 面 号 用 10 位 ， 这 样 ， 驱 动 器 最 多 可 以 有 16 个 磁头， 
63 (ia KA 1024 个 柱 面 ， 总 数 不 超 过 1 032 392 个 扇 区 。 这 个 大 硬盘 的 容量 是 504MB， 当 
时 看 起 来 已 经 是 无 法 想象 ， 现 在 当然 不 能 算 什么 。( 你 今天 会 认为 一 台 计 算 机 无 法 控制 超过 
1000TB 的 硬盘 是 一 个 错误 吗 ? ) 

遗憾 的 是 ， 不 久 后 ， 就 推出 了 超过 504MB 的 硬盘 ， 但 其 参数 有 问题 ( 例如 ，4 个 磁头 、 
32 个 扇 区 、2000 个 柱 面 也 就 是 256 000 个 扇 区 )， 由 于 已 无 法 改变 的 读 写 方式 ， 所 以 操作 系 
统 无 法 对 其 进行 寻 址 。 硬 盘 控 制 器 只 好 假装 其 参数 还 在 BIOS 限制 的 范围 内 ， 而 通过 对 虚拟 
参数 进行 重新 映 象 来 解决 这 个 问题 。 虽 然 这 暂时 解决 了 问题 ,但 给 操作 系统 带 来 了 麻烦 。 为 
缩短 查找 时 间 ， 它 只 能 小 心安 排 数 据 的 存放 位 置 。 

最 后 ， 从 IDE 硬盘 发 展 出 了 EIDE (Extended IDE) 硬盘 ， 它 同时 支持 另 一 种 地 址 映射 方 
式 ， 即 逻辑 块 寻 址 (Logical Block Addressing, LBA )， 它 将 扇 区 号 扩展 为 从 0 到 最 大 的 2- 
1， 要 求 控制 器 将 LBA 地 址 转换 成 相应 的 磁头 、 扇 区 和 柱 面 地 址 ， 但 它 确 实 突破 了 504MB 的 
限制 。 不 幸 的 是 ， 它 依然 有 新 的 瓶颈 ， 即 23 x 2? 字 节 (128GB )。1994 年 ,EIDE 标准 被 采纳 ， 
当时 无 人 能 想象 128GB 的 人 硬盘。 标准 委员 会 ， 和 政治 家 一 样 ， 善 于 将 问题 及 时 向 前 推进 ， 交 
给 下 一 届 委 员 会 去 解决 。 

EIDE 硬盘 和 控制 器 在 其 他 一 些 方面 也 有 所 改进 ， 如 BIDE 控制 器 可 以 有 两 个 通道 ， 每 个 
有 一 个 主 驱动 器 和 副 驱 动 器 。 这 种 安排 使 它 最 多 可 以 控制 4 个 驱动 器 ， 同 时 还 支持 CD-ROM 
和 DVD 驱动 器 ， 传 输 率 也 从 4MB/s 提高 到 16.67MB/s。 

随 着 磁盘 技术 的 进一步 提高 ，EIDE 标准 由 于 某 些 原因 ， 转 而 发 展 成 为 ATA-3 (AT 附件 ， 
AT Attachment )， 一 个 参考 了 IBM PC/AT 的 标准 (此 处 AT 指 当 时 的 高 级 技术 一 一 运行 于 8M 
主 频 的 16 位 CPU )。 下 一 个 版 本 的 标准 名 为 ATAPI-4 ( ATA 包 接口 ，ATA Packet Interface ), 
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速度 提高 到 33MB/s。 到 ATAPI-5 时 速度 已 达到 66MB/s。 

此 时 ， 由 38 位 LBA 地 址 带 来 的 128GB 的 限制 造成 的 影响 越 来 越 大 ， 因 此 ，ATAPI-6 将 
LBA 的 大 小 改 成 了 48 位 。 新 标准 将 会 在 磁盘 容量 达到 2 x 2? 字 节 (128PB ) 时 出 现 问题 。 
考虑 磁盘 容量 的 年 增长 率 为 50%，48 位 地 址 的 问题 可 能 会 到 2035 年 后 才 出 现 。 读 者 如 想 了 
解 这 个 问题 是 如 何 解决 的 ， 请 查阅 本 书 的 第 11 版 。 有 内 幕 消 息 的 人 打赌 会 将 LBA 地 址 扩充 
到 64 位 。ATAPI-6 标准 还 将 传输 速度 提高 到 了 100MB/s， 并 第 一 次 解决 了 磁盘 噪声 问题 。 

ATAPI-7 标准 对 以 前 的 标准 进行 了 根本 性 改变 。 和 原来 通过 提高 驱动 器 连接 器 大 小 ( 以 
提高 数据 传输 率 ) 的 方法 不 同 ， 该 标准 采用 了 全 新 的 连续 ATA (Serial ATA ) 方式 在 一 个 7 针 
的 连接 器 上 一 次 传输 1 位 ， 传 输 速 度 开 始 为 150MB/s, 今后 希望 提高 到 1.5GB/s。 这 样 ， 就 可 
以 用 一 个 仅 有 几 毫 米 厚 的 圆 形 电缆 取代 以 前 的 80 线 的 扁平 电费， 改善 了 计算 机 内 的 空气 流通 
情况 。 同 时 ， 连 续 ATA 方式 的 信号 使 用 0.5 伏 电压 (而 ATAPI-6 标准 使 用 5 伏 电 压 )， 可 降 
低能 耗 。 在 未 来 几 年 内 ， 所 有 计算 机 都 将 使 用 连续 ATA。 磁 盘 的 能 耗 问题 已 经 是 一 个 日 益 严 
重 的 问题 ， 不 管 是 在 数据 中 心中 有 大 量 磁盘 柜 的 高 端 计算 机 上 ， 还 是 在 低 端 的 笔记 本 型 计算 
机 中 ， 能 耗 都 是 受 限 制 的 (Gurumurthi 等 ，2003 )。 


2.3.4 SCSI #& 


在 柱 面 、 磁 道 和 扇 区 的 组 织 方面 ，SCSI 硬盘 和 IDE 硬盘 并 没有 什么 区 别 ， 但 SCSI 的 接 
口 不 同 ， 传 输 率 也 更 高 一 些 。SCSI 的 历史 可 以 追溯 到 Howard Shugart， 他 是 20 世纪 80 年 代 
时 最 早 的 个 人 计算 机 上 广泛 使 用 的 软盘 的 发 明 人 。 他 的 公司 在 1979 年 推出 了 SASI (Shugart 
Associates System Interface ) 硬盘。 经 过 一 些 完 善 和 广泛 的 讨论 后 ，ANSI 在 1986 年 对 它 进行 
了 标准 化 ， 并 改名 为 SCSI (Small Computer System Interface， 小 型 计算 机 系统 接口 )。SCSI 
的 发 音 为 “scuzzy”"。 从 那 时 起 ， 速 度 更 快 的 一 个 个 版 本 被 标准 化 ， 分 别 被 命名 为 Fast SCSI 
(10MHz ), Ultra SCSI ( 20MHz )、Ultra2 SCSI (40MHz), Ultra3 SCSI ( 80MHz ), Ultra4 
SCSI ( 160MHz ) 及 Ultras SCSI (320MHz )。 同 时 ， 每 个 版 本 都 分 别 对 应 一 个 宽带 (16 位 ) 
版 本 。 但 是 ， 最 新 的 几 个 版 本 仅 有 宽带 版 。 图 2-22 给 出 了 这 些 标准 的 配置 参数 。 


图 2-22 一些 SCSI 标 准 的 参数 





由 于 SCSI 硬盘 的 传输 速率 比较 高 ， 故 成 为 许多 高 端的 工作 站 和 服务 器 的 标准 磁盘 接口 ， 
尤其 是 那些 配置 RAID 硬盘 的 计算 机 。 
SCSI 不 仅仅 是 一 种 硬盘 接口 ， 还 是 一 条 最 多 可 连接 7 个 SCSI 设 备 的 总 线 。 这 可 以 是 一 
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个 或 多 个 SCSI HER, CD-ROM, CD 刻 盘 机 、 扫 描 仪 、 磁 带 机 或 其 他 SCSI 计算 机 外 设 。 每 
个 SCSI 设 备 有 一 个 唯一 的 IDP， 编 号 为 0 ~ 7 (宽带 SCSI 为 0 ~ 15 )。 每 个 设备 有 两 个 插口 ， 
一 个 用 做 输入 ， 另 一 个 用 于 输出 。 用 电缆 线 将 一 个 设备 的 输出 口 连 到 下 一 个 设备 的 输入 口 ， 
就 像 一 串 廉价 的 圣诞 树 灯泡 串联 在 一 起 。 串 上 的 最 后 一 个 设备 必须 用 终结 器 结束 ， 以 防止 从 
SCSI 总线 的 端 头 发 射 的 信和 号 干扰 总 线 的 其 他 数据 。 一 般 来 说 ， 控 制 器 在 一 块 SCSI 卡 上 ， 也 
是 电缆 线 的 开头 ， 虽 然 标 准 中 并 没有 对 此 作 严 格 规定 。 

最 常见 的 8 位 数据 SCSI 电 缆 线 有 50 根 线 ， 其 中 25 根 为 地 线 ， 和 其 他 25 根 线 一 一 对 
应 ， 提 供 了 高 速 传输 必需 的 噪声 屏蔽 。 在 25 根 线 中 ，8 根 是 数据 线 ，1 根 是 校 验 位 ，9 根 是 
控制 线 ， 剩 下 的 是 电源 线 和 预 留 给 今后 使 用 的 线 。16 位 (和 32 位 ) 数据 的 设备 需要 第 二 根 
电缆 线 提供 其 他 的 信号 。 电 缆 线 可 以 有 几米 长 ， 可 以 接 一 些 外 部 设备 、 扫 描 仪 等 。 

SCSI 控制 器 和 外 部 设备 都 可 以 作为 数据 传输 的 发 起 者 和 接收 者 。 一 般 情 况 下 ， 控 制 器 作 
为 发 起 方 ， 首 先 发 出 命令 给 作为 接收 方 的 磁盘 或 其 他 外 部 设备 。 这 些 命令 是 不 超过 16 个 字 节 
的 块 ， 规 定 了 命令 接收 方 要 完成 的 任务 。 命 令 和 应 答 分 成 不 同 的 状态 ， 可 以 用 不 同 的 控制 信 
号 来 描述 不 同 的 状态 ， 当 多 个 设备 要 同时 使 用 总 线 时 ， 控 制 信号 还 要 进行 总 线 仲裁 ， 以 决定 
由 哪个 设备 使 用 总 线 。 对 总 线 的 仲裁 十 分 重要 ， 因 为 SCSI 允许 所 有 设备 同时 使 用 ， 在 多 进程 
环境 下 ， 这 能 极 大 地 提高 系统 的 性 能 。IDE 和 EIDE 同一 时 间 只 能 使 用 一 个 设备 。 


2.3.5 RAID Æ 


CPU 性 能 在 过 去 的 十 年 中 有 了 极 大 地 提高 ， 几 乎 是 每 18 个 月 翻 一 番 。 但 磁盘 的 性 能 
却 没 能 跟 上 。 在 20 世纪 70 年 代 ， 小 型 机 磁盘 的 平均 查找 时 间 为 50 ~ 100 毫秒 ， 现 在 是 10 
毫秒 。 在 许多 行业 (如 汽车 或 航空 业 )， 如 果 性 能 的 提高 能 达到 这 个 速度 ， 即 20 年 内 提高 
5 ~ 10 倍 ， 那 就 会 是 头条 新 闻 ， 但 对 计算 机 行业 ， 这 却 成 了 一 个 障碍 ,造成 CPU 性 能 和 磁盘 
性 能 间 的 差距 这 些 年 来 越 来 越 大 。 

我 们 知道 ， 在 提高 CPU 性 能 方面 ， 并 行 处 理 技 术 已 得 到 广泛 使 用 。 这 些 年 来 ， 许 多 人 
意识 到 ， 并 行 VO 也 是 一 个 提高 磁盘 性 能 的 好 办 法 。1988 年 ，Patterson 等 在 他 们 的 一 篇 文章 
中 建议 用 6 个 特定 的 磁盘 组 织 来 提高 磁盘 的 性 能 或 可 靠 性 ， 或 两 方面 都 同时 提高 。 这 个 建议 
很 快 就 被 业界 采用 ， 并 导致 了 一 种 新 的 IO 设备 的 诞生 ， 这 就 是 RAID 盘 。Patterson 等 人 把 
RAID 定义 为 廉价 磁盘 的 宛 余 阵列 (Redundant Array of Inexpensive Disk ), 但 工业 界 把 “I” 
HH “Betray (Inexpensive ) ”替换 成 “独立 的 (Independent )”。( 也 许 这 样 他 们 就 可 以 使 用 昂 
贵 的 磁盘 ? ) 也 许 是 需要 一 个 对 立 面 ( BEAR RISC 和 CISC 一 样 ， 也 是 由 Patterson 提出 的 ), 
对 应 的 磁盘 称 为 单个 昂贵 大 磁盘 SLED ( Single Large Expensive Disk )。 

RAID 的 基本 原理 是 在 一 台 计 算 机 ， 通 常 是 大 型 服务 器 旁 ， 安 装 一 个 装 满 磁 盘 的 磁盘 柜 ， 
用 RAID 控制 器 替换 原来 的 磁盘 控制 卡 ， 将 数据 复制 到 RAID 硬盘 中 ， 然 后 就 可 以 进行 其 他 
正常 读 写 操作 了 。 换 句 话 说， 对 于 操作 系统 来 说 ，RAID 应 该 和 SLED 没有 什么 不 同 ， 但 性 能 
更 好 ， 可 靠 性 更 高 。 由 于 SCSI 硬盘 具有 良好 的 性 能 ， 低 廉 的 价格 ， 并 能 在 单个 控制 器 上 连接 
多 达 7 个 (宽带 SCSI 为 15 个 ) 驱动 器 ， 多 数 RAID 采用 RAID SCSI 控制 器 和 SCSI 磁盘 柜 ， 
对 操作 系统 来 说 就 像 是 一 个 大 容量 磁盘 一 样 。 这 样 ， 使 用 RAID 不 需要 对 软件 做 任何 修改 ， 
对 许多 系统 管理 员 来 说 ， 这 也 是 一 个 大 卖点 。 

除了 对 软件 来 说 像 一 个 磁盘 之 外 ， 所 有 的 RAID 硬盘 都 具备 将 数据 分 布 到 所 有 驱动 器 的 
特性 ， 以 支持 并 行 读 写 操作 。Patterson 等 人 定义 了 几 种 不 同 的 模式 来 实现 这 点 ， 即 我 们 现在 


UHM A A A A 65 


所 说 的 RAID 0 ~ RAID 5 层 。 另 外 ， 还 有 几 个 我 们 不 准备 讨论 的 小 层 。“ 层 ”这 个 词 也 许 用 
得 不 太 合 适 ， 因 为 并 没有 任何 层次 结构 在 里 面 ， 只 是 简单 的 6 种 不 同 组 织 方 式 ， 每 种 方式 具 
备 不 同 的 可 靠 性 和 性 能 。 

RAID 0 如 图 2-23a 所 示 。 它 将 由 RAID 模拟 的 单个 虚拟 磁盘 划分 成 带 (strip), BEAT k 
个 扇 区 。 第 0 带 为 第 0 ~ 太 !1 扇 区 ， 第 1 带 为 第 上 ~ 2-1 扇 区 等 。 对 全 1， 每 个 带 为 1 个 扇 
区 ; 对 二 2， 每 带 有 2 SRE. RAID 0 以 交叉 循环 的 方式 将 数据 写 到 连续 的 带 中 ， 图 2-23a 
描述 的 就 是 有 4 个 磁盘 驱动 器 的 RAID 盘 。 这 种 在 多 个 驱动 器 上 分 布 数据 的 方式 称 为 条 带 化 
(striping )。 例 如 ， 如 果 软 件 发 出 从 带 的 边界 开始 读 4 个 连续 带 的 数据 块 的 命令 ，RAID 控制 
器 将 把 这 个 命令 分 解 成 4 个 单独 的 读 命 令 ，4 个 驱动 器 每 个 一 个 ， 让 它们 并 行 执行 。 这 样 ， 就 
实现 了 对 软件 透明 的 并 行 IO 操作 。 

RAID 0 对 于 大 的 数据 请 求 性 能 好 一 些 ， 数 据 量 越 大 越 好 。 如 果 数 据 请 求 超出 了 驱动 器 数 
目 乘 以 带 的 大 小 ,那么 ， 某 些 驱动 器 可 能 会 得 到 多 个 请 求 ， 这 样 ， 它 们 可 以 在 结束 第 一 次 请 
求 后 ， 启 动 第 二 次 请 求 。 这 将 由 控制 器 来 分 解 请 求 ， 并 将 相应 的 命令 以 正确 的 顺序 提交 给 相 
应 的 驱动 器 ， 并 将 读 出 的 结果 在 内 存 中 正确 组 合 起 来 。 这 种 方式 实现 简洁 ， 具 有 很 好 的 性 能 。 

RAID 0 对 于 一 些 习惯 于 一 次 请 求 一 个 扇 区 数据 的 操作 系统 性 能 不 太 好 。 读 出 结果 是 正确 
的 ， 但 由 于 无 法 并 行 操作 ， 所 以 无 法 提高 性 能 。 这 种 组 织 方 式 的 另 一 个 不 足 是 其 可 靠 性 可 能 
tt SLED 要 差 。 对 一 个 有 4 块 磁盘 的 RAID 硬盘 ， 每 个 磁盘 的 平均 失败 时 间 是 20 000 小 时 ， 
那么 ， 大约 5000 小 时 就 有 一 个 磁盘 要 失败 ， 这 将 导致 整 块 RAID 盘 的 数据 全 部 丢失 。 同 样 平 
均 失 败 时 间 为 20 000 小 时 的 SLED 的 可 靠 性 就 比 RAID 高 了 4 倍 。 由 于 这 种 方式 没有 设计 宛 
余 ， 所 以 不 能 算是 真正 意义 上 的 RAID, 

图 2-23b 给 出 的 是 RAID 1 的 例子 ， 这 是 真正 意义 上 的 RAID。 它 复制 了 所 有 的 磁盘 ， 所 
以 图 2-23 中 的 例子 有 4 块 主 磁盘 和 4 块 辅助 磁盘 ， 当 然 实 际 中 任何 偶数 块 磁 盘 都 是 可 能 的 。 
每 个 对 磁盘 的 写 操作 都 进行 两 次 ， 而 每 次 读 或 复制 操作 则 可 以 读 任意 一 个 备份 ， 把 负载 均衡 
分 布 到 不 同 的 驱动 器 上 。 这 样 ， 写 操作 的 性 能 并 不 比 单个 磁盘 好 ， 但 读 磁 盘 的 性 能 却 比 单个 
磁盘 高 了 两 倍 。 容 错 性 能 就 更 好 了 ， 如 果 一 个 驱动 器 骨 浇 ， 只 要 简单 地 用 备份 驱动 器 代替 就 
行 了 。 恢 复 整 个 磁盘 的 操作 包括 两 个 步骤 : 装 上 一 个 新 的 驱动 器 ,然后 将 整个 备份 驱动 器 的 
内 容 复制 到 新 的 驱动 器 上 。 

与 以 扇 区 组 成 的 带 为 工作 单位 的 RAID 0 和 RAID 1 不 同 ，RAID 2 的 工作 单位 为 字 ， 可 
能 的 话 甚 至 可 以 是 字 节 。 首 先 我 们 可 以 想象 将 单个 虚拟 磁盘 上 的 字 节 分 解 成 一 对 4 位 的 半 字 
节 ， 对 每 个 半 字 节 加 上 3 位 海 明 码 形成 7 位 字 ， 即 其 中 1、2、4 位 做 校 验 位 。 然 后 ， 再 进 一 
步 设 想 图 2-23c 所 示 的 7 个 驱动 器 的 磁头 位 置 能 同步 ， 且 磁盘 还 能 同步 旋转 ， 就 可 能 将 整个 
海 明 码 字 写 在 7 个 驱动 器 上 ， 每 个 驱动 器 一 位 。 

想象 中 的 CM-2 计算 机 使 用 的 就 是 这 种 方式 ， 将 32 位 数据 字 加 上 6 位 校 验 位 后 形成 38 
位 的 海 明 码 字 ， 再 对 整个 字 加 一 位 校 验 码 ， 然 后 将 这 个 字 分 布 到 39 个 驱动 器 上 。 总 的 吞吐 量 
增加 了 一 些 , 但 可 以 在 写 一 个 扇 区 的 时 间 里 实际 完成 写 32 个 扇 区 的 有 效 数 据 。 而 且 ， 丢 失 一 - 
个 驱动 器 也 不 会 引起 问题 ， 因 为 少 一 个 驱动 器 只 会 丢失 读 出 的 39 位 字 中 的 1 位 ， 海 明码 可 以 
对 此 进行 恢复 。 

这 种 方式 的 不 足 是 所 有 的 驱动 器 必须 同步 旋转 ， 且 只 在 驱动 器 个 数 足够 多 时 才 有 效 〈 即 
使 32 位 数据 位 ， 也 需要 6 位 校 验 驱 动 器 ， 多 出 19% )。 它 也 需要 多 个 控制 器 ， 因 为 需要 对 每 
一 位 做 Hamming 校 验 和 。 

RAID 3 是 RAID 2 的 一 个 简化 版 本 ， 如 图 2-23d 所 示 。 它 只 需 对 每 个 数据 字 计 算 一 个 校 
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验 位 ， 并 写 到 一 个 校 验 驱动 器 上 。 和 了 RAID 2 相同 ， 驱 动 器 之 间 必 须 严 格 同步 ， 因 为 一 个 字 
被 分 布 到 多 个 驱动 器 中 。 

乍 一 看 ， 也 许 会 觉得 一 位 校 验 位 只 能 发 现 错误 ， 而 不 能 纠正 错误 。 对 随机 的 一 个 未 经 检 
验 的 错误 ,这 显然 是 正确 的 。 但 是 ， 对 于 磁盘 崩 演 ， 它 能 纠正 1 位 错误 ， 因 为 出 错位 的 位 置 
是 已 知 的 。 如 果 某 个 磁盘 崩 演 ， 则 控制 器 只 需 先 将 该 磁盘 上 的 所 有 位 都 假设 是 0， 如 果 此 时 校 
验 位 出 错 ， 那 么 坏 驱 器 中 的 该 位 就 应 该 是 1， 错 误 也 就 得 到 了 纠正 。 尽 管 RAID 2 和 RAID 3 
都 提供 了 高 速 的 数据 传输 速率 ， 但 它们 在 每 秒 钟 能 处 理 的 独立 的 VO 次 数 却 不 比 单个 磁盘 好 。 

RAID 4 Ñ RAID 5 回 到 以 带 为 单位 的 工作 方式 上 ， 不 用 对 每 个 字 进 行 校 验 ， 也 不 要 求 驱 
动 器 同步 。RAID 4 (如 图 2-23e 所 示 ) AI RAID 0 类似, 将 对 带 的 校 验 写 在 额外 的 驱动 器 上 。 
例如 ， 若 带 的 长 度 是 个 字 节 ， 则 将 所 有 的 带 异 或 到 一 起 ， 产 生 一 个 上 字 节 长 的 校 验 带 。 如 
果 其 中 一 块 磁 盘 崩 江 ， 那 么 它 的 内 容 可 以 从 校 验 磁盘 上 重新 计算 出 来 。 
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这 种 设计 可 以 防止 整个 驱动 器 的 丢失 ,但 对 于 某 些 字 节 出 错 的 纠 错 性 能 就 相当 差 。 如 果 
一 个 扇 区 被 破坏 ， 那 么 为 了 重新 计算 校 验 盘 ， 也 必须 读 遍 所 有 的 驱动 器 ， 然 后 ， 再 将 它们 重 
写 回 去 。 另 一 种 办 法 就 是 读 入 旧 数 据 和 校 验 数据 ， 重 新 计算 新 的 校 验 数 据 。 但 即使 是 经 过 这 
种 优化 ， 一 个 小 的 错误 也 要 求 分 别 读 写 两 次 磁盘 ， 这 显然 是 很 糟糕 的 。 

由 于 这 种 方法 带 来 的 校 验 磁 盘 的 巨大 负载 ， 使 它 可 能 成 为 瓶颈 。RAID 5 为 减少 校 验 盘 的 
负载 ， 将 校 验 位 循环 均匀 分 布 到 所 有 的 驱动 器 上 ， 如 图 2-23f 所 示 。 当 然 ， 如 果 RAID 5 的 磁 
盘 朋 演 ， 修 复 磁盘 内 容 也 将 是 一 个 复杂 的 过 程 。 
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作为 传统 磁盘 技术 的 替代 品 ， 由 高 速 且 非 易 失 的 Flash 存储 器 制造 的 固 盘 (Solid-State | ， 
Disk，SSD ， 也 称 固态 盘 ) 正 逐 步 流行 起 来 。SSD 的 发 明 是 一 个 经 典 的 故事 ， 完 美 诠释 了 “ 假 |97 
如 生活 给 你 酸 柠檬 ， 就 用 它 做 柠檬 水 ”这 人 句 谚 语 。 一 般 情况 下 ， 现 代 电 子 学 看 起 来 是 完全 可 
靠 的 ， 但 事实 上 晶体 管 在 使 用 过 程 中 也 会 缓慢 老化 。 每 开 合 一 次 ， 它 们 都 将 更 为 老化 ， 离 完 
全 失效 更 近 一 步 。 唱 体 管 失 效 的 可 能 原因 是 “ 热 载 流 子 注 入 ”， 也 就 是 电子 被 蔡 人 到 一 个 正常 
工作 的 晶体 管内 部 ， 逐 渐 使 它 转变 为 永久 处 于 “ 开 ” 或 者 “ 关 ” 的 状态 。 通 常情 况 下 ， 这 就 
像 是 给 一 个 无 训 的 晶体 管 判 了 死刑 ， 但 当时 在 东芝 公司 工作 的 Fujio Masuoka 决定 把 这 个 “ 酸 
柠檬 ”做 成 可 口 的 “柠檬 水 ”， 他 提出 可 以 利用 这 个 失效 机 制 来 创造 一 种 新 型 非 易 失 存储 器 。 
在 20 世纪 80 年 代 早期 ， 他 发 明了 第 一 片 Flash 存储 器 。 

Flash 硬盘 由 许多 固态 Flash 存储 单元 组 成 ， 而 Flash 存储 单元 由 一 个 特制 的 Flash 晶体 管 
制 成 ， 如 图 2-24 所 示 。 抱 在 晶体 管内 部 的 是 一 个 浮 空 栅 极 ， 可 通过 高 电压 对 其 充电 或 放电 。 
在 被 编程 前 ， 浮 空 栅 极 对 品 体 管 的 功能 没有 任何 影响 ， 仅 仅 是 在 控制 极 和 晶体 管 的 通道 之 间 
增加 了 一 个 绝缘 体 而 已 。 此 时 若 检测 Flash 存储 单元 的 功能 ， 它 就 是 一 个 简单 的 晶体 管 。 


,一 编程 电压 
12V 






Se 


检测 电压 





图 2-24 Flash 存储 器 单元 


为 给 Flash 存储 单元 编程 ( 写 人 数据 )， 需 要 在 其 控制 极 上 加 载 高 电 平 (在 计算 机 的 世界 
里 ，12V 就 是 高 电 平 了 )， 这 样 ， 会 加 速 热 载 流 子 注入 浮 空 栅 极 的 过 程 。 电 子 嵌 人 到 浮 空 栅 极 [2] 
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上 ,在 Flash 晶体 管内 部 加 载 了 负电 荷 。 这 些 骨 入 的 负电 荷 会 使 将 晶体 管 打通 所 需要 的 电压 增 
大 ， 这 样 ， 通 过 在 高 或 低 的 控制 极 电压 下 检测 晶体 管 是 否 导 通 ， 就 有 可 能 判定 浮 空 栅 极 是 否 
充 了 负电 荷 ， 由 此 可 判断 存储 单元 中 存放 的 是 “0” 还 是 “1”。 即 使 外 部 电压 从 系统 中 撤除 ， 
代入 在 晶体 管 中 的 电荷 也 一 直 会 存在 ， 从 而 保证 Flash 存储 单元 中 的 信息 是 非 易 失 性 的 。 

SSD 本 质 上 属于 半导体 存储 器 ， 因 此 ， 与 那些 需要 旋转 的 磁盘 比 ， 它 的 性 能 要 超出 许 
多 ， 且 寻 道 时 间 为 0。 典型 的 磁盘 数据 速率 为 100MB/s 时 ，SSD 的 速度 是 它 的 2 ~ 3 倍 。 而 
且 ， 由 于 这 类 设备 中 不 存在 可 移动 的 部 分 ， 所 以 它 尤 其 适合 在 笔记 本 型 计算 机 中 使 用 ， 在 振 
动 和 移动 中 也 不 会 妨碍 数据 的 读 取 。 与 磁盘 比较 ，SSD 的 不 足 在 于 其 价格 ， 磁 盘 价格 为 数 美 
分 /GB， 而 SSD 的 价格 为 1 ~ 3 美元 /GB， 这 使 得 其 仅仅 适用 于 存储 量 不 大 或 者 是 对 价格 不 
敏感 的 应 用 。SSD 的 价格 一 直 在 降 ， 但 要 赶 上 廉价 磁盘 的 价格 还 有 比较 远 的 距离 。 因 此 ， 尽 
E SSD 在 许多 计算 机 中 正在 取代 磁盘 ,但 要 全 面 让 磁盘 变 成 恐龙 走向 终结 可 能 还 有 较 长 的 一 
段 时间 ( 除非 男 外 一 颗 流 星 撞击 地 球 ， 但 这 时 SSD 可 能 也 同样 无 法 生存 )。 

与 磁盘 相 比 ，SSD 的 另外 一 个 不 足 是 它 的 使 用 寿命 。 典 型 的 Flash 存储 单元 最 多 可 以 写 
100 000 次 ， 超 出 后 就 无 法 再 用 了 。 向 浮 空 栅 极 上 注入 电子 的 过 程 对 栅 极 和 其 周边 的 绝缘 体 
都 有 一 个 缓慢 的 伤害 ， 造 成 它 最 终 失 效 。 为 延长 SSD 的 使 用 寿命 ， 固 盘 中 的 所 有 Flash 存储 
单元 广泛 使 用 均衡 磨损 技术 ， 将 写 操作 尽量 平均 分 布 到 到 固 盘 中 的 每 个 存储 单元 。 每 次 新 增 
一 个 对 固 盘 块 的 写 操 作 ， 尽 量 把 它 写 到 最 近 没 有 被 写 过 的 一 个 “新 ”的 SSD 块 中 。 这 需要 在 
Flash 驱动 器 中 使 用 逻辑 块 进行 映射 ， 也 是 使 Flash 驱动 器 的 内 部 空间 要 更 大 一 些 的 原因 之 一 。 
采用 均衡 磨损 技术 ，Flash 驱动 器 能 支持 的 写 的 次 数 可 以 达到 单个 存储 元 可 写 的 次 数 乘 以 固 盘 
中 的 块 数 。 

通过 采用 多 层 Flash 存储 单元 ， 有 些 SSD 可 以 通过 编码 在 一 个 存储 元 中 存放 多 位 。 该 项 
技术 在 编程 时 更 为 精确 地 控制 放置 到 浮 空 栅 极 中 的 电荷 的 数量 ,， 读 取 时 也 采用 逐步 增加 的 电 
压 序 列 来 判断 浮 空 栅 极 中 充 入 的 电荷 。 典 型 的 多 层 存 储 单元 可 支持 4 个 充电 级 别 ， 使 每 个 存 
储 单元 可 以 存放 2 位 二 进 制 数据 。 


2.3.7 ”只 读 光 盘 


光盘 最 初 是 为 存储 电视 节目 而 开发 的 ， 但 作为 计算 机 的 存储 设备 ， 它 能 发 挥 更 好 的 作用 。 
由 于 其 大 容量 和 价格 低廉 的 特点 ， 光 盘 正 广泛 地 用 于 分 发 软件 、 书 籍 、 电 影 以 及 各 种 类 型 的 
数据 ， 同 时 也 可 作为 硬盘 的 后 备 。 

第 一 代 光 盘 是 由 荷兰 的 电子 企业 集团 飞利浦 公司 发 明 的 ， 用 来 存放 电影 。 大 小 为 30cm 
左右 ， 以 激光 影碟 的 名 称 面市 。 但 除了 在 日 本 ， 当 时 的 光盘 并 没有 流行 起 来 。 


1980 年 飞利浦 和 索尼 一 起 推出 了 CD (Compact Disc )， 并 很 快 取代 了 每 分 钟 33 工 转 的 


乙烯 基 唱 片 。CD 的 详尽 技术 细节 以 正式 的 国际 标准 (IS 10149) 公布 ， 并 根据 封面 的 颜色 被 
俗称 为 红皮书 。( 国际 标准 由 国际 标准 化 组 织 公 布 ， 它 是 由 ANSI 和 DIN 之 类 的 国家 标准 组 
织 组 成 的 国际 合作 伙伴 ， 每 个 国际 标准 都 有 自己 的 国际 标准 号 。) 以 国际 标准 的 形式 公布 盘 片 
和 驱动 器 的 标准 ， 可 以 使 不 同 的 音像 出 版 商 、 演 奏 家 以 及 电子 设备 制造 商 走 到 一 起 ， 共 同 发 
展 CD。 国 际 标准 规定 所 有 的 CD 大 小 为 120mm 左右 ， 厚 度 为 1.2mm 左右 ， 中 心 有 一 直径 为 
15mm 的 孔 。 音 频 CD 首先 成 为 市 场 上 的 主导 数字 存储 介质 ， 佑 计 可 以 持续 100 年 左右 。 到 
2080 年 ， 请 总 结 一 下 第 一 批 CD 的 各 项 优点 。 

CD 是 通过 在 涂 有 玻璃 表层 的 主 盘 上 ， 用 高 能 红外 激光 束 烧 出 0.8mm 直径 的 小 孔 制 成 的 。 
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用 这 种 主 盘 做 成 模子 ， 上 面 带 有 烧 好 的 激光 孔 ， 然 后 往 模子 上 注 和 人 熔化 的 多 种 碳酸 盐 脂 ， 使 
激光 和 孔 的 形状 和 玻璃 主 盘 的 形状 一 样 ， 就 基本 上 完成 了 CD 的 主体 。 接 着 ， 在 碳酸 盐 脂 上 沉 
淀 上 薄 层 的 反射 铝 ， 再 覆盖 上 一 层 起 保护 作用 的 表层 ， 最 后 再 打上 标签 ， 整 个 CD 就 完成 了 。 
碳酸 盐 脂 底 基 的 四 陷 部 分 叫做 上 四 区 ， 止 区 两 边 未 经 过 烧 制 的 部 分 叫做 凸 区 。 

将 CD 进行 回放 时 ， 用 一 个 低能 激光 二 极 管 发 出 的 波长 为 0.78mm 的 红外 光照 射 在 二 极 
管 下 “ 流 过 ”的 止 区 和 上 凸 区 。 光 源 在 碳酸 盐 脂 层 的 上 方 ， 所 以 ， 当 四 区 经 过 时 ， 激 光束 就 会 
比 上 号 区 经 过 时 伸 出 一 些 。 由 于 四 区 的 高 度 为 激光 波长 的 1/14， 所 以 从 四 区 反射 的 激光 的 波长 为 
从 是 区 反射 光 的 波长 的 一 半 。 这 样 ， 反 射 光 和 发 射 光 秋 加 ， 将 导致 光 接收 器 接收 到 的 从 四 区 
反射 的 光线 比 从 西区 反射 的 要 弱 。CD 机 通过 这 种 途径 ， 可 以 区 别 出 四 区 和 凸 区 。 虽 然 用 町 区 
代表 0、 凸 区 代表 1 可 能 是 最 简单 的 表示 方法 , 但 从 可 靠 性 方面 考虑 ， 用 上 是 区/ 四 区 和 四 区 / 
凸 区 转换 来 表示 1， 而 用 连续 的 止 区 或 凸 区 来 表示 0 的 可 靠 性 要 高 一 些 ， 所 以 ，CD 上 采用 的 
是 这 种 模式 。 

站 区 和 凸 区 写 在 一 根 单 向 的 螺旋 线 上 ， 螺 旋 线 从 靠近 孔 的 地 方 发 出 ,一 直到 离 盘 边 
32mm 处 。 螺 旋 线 在 硬盘 上 共有 22 188 圈 
(每 毫米 约 600 圈 )， 如 果 没 有 损坏 ， 则 长 度 
为 5.6 公里 ， 如 图 2-25 所 示 。 

为 使 光盘 上 的 音乐 以 恒定 的 速度 播放 ， 
就 必须 保证 四 区 和 凸 区 “流动 ”的 线 速度 保 
持 恒 定 ， 也 就 是 说 ， 随 着 CD 机 的 读 盘 头 从 
里 到 外 移动 ，CD 盘 的 旋转 速度 必须 持续 下 
降 。 在 里 圈 ， 旋 转速 度 应 为 530 转 /分 ， 以 
达到 理想 的 线 速 度 一 一 120cm/s ; 到 外 圈 后 ， 
要 使 读 盘 头 保持 同样 的 线 速度 ， 旋 转速 度 应 
降 到 200 Fe /分 。 保 持 恒 定 线 速度 的 光盘 驱 
动 器 和 硬盘 驱动 器 有 很 大 区 别 ， 硬 盘 驱 动 器 
不 管 磁头 在 什么 位 置 都 保持 恒定 的 角速度 。 图 2-25 ”光盘 和 只 读 光盘 的 记录 结构 
而 且 ，530 转 /分 的 角速度 和 大 多 数 硬 盘 驱 
动 器 3600 转 /分 ~ 7200 转 / 分 的 角速度 也 有 很 大 的 差别 。 

1984 年 ， 飞 利 浦和 索尼 认识 到 用 CD 存放 计算 机 数据 的 潜在 可 能 ， 共 同 出 版 了 黄皮书 ， 
精确 定义 了 现在 称 为 只 读 光盘 存储 器 ( Compact Disc-Read Only Memory, CD-ROM) 的 CD 
的 标准 。 为 了 占领 当时 已 经 很 大 的 音频 CD HA, CD-ROM 采用 了 和 音频 CD 一样 的 外 形 、 
大 小 ， 在 机 械 和 光学 两 方面 和 音频 CD 兼容 ， 甚 至 采用 相同 的 铸模 机 生产 。 这 些 标准 使 得 光 
盘 驱 动 器 必须 采用 低速 的 可 变速 马达 ， 同 时 ， 只 要 产量 达到 适当 的 规模 ， 每 张 CD-ROM 的 生 
产 成 本 将 远 低 于 1 美元 。 

黄皮书 中 定义 了 CD-ROM 中 计算 机 数据 的 格式 ， 它 提高 了 系统 的 纠 错 能 力 ， 这 对 CD: 
ROM 来 说 十 分 重要 。 因 为 音乐 迷 们 可 能 并 不 太 在 意 音 频 CD 中 这 儿 或 那儿 丢 了 一 位 ,但 计算 
PLATE TE Ft PES. CD-ROM 的 基本 数据 格式 将 每 个 字 节 编码 成 14 位 的 符号 。 本 书 
前 面 已 经 提 到 ，14 位 足够 将 8 位 长 的 字 节 进行 海 明 编 码 ， 还 有 两 位 剩余 。 实 际 上 ，CD-ROM 
采用 的 是 新 的 编码 系统 ， 将 读 出 的 14 位 符号 映射 到 8 位 的 字 节 是 通过 硬件 查 表 进 行 的 。 

然后 ， 连 续 的 42 个 符号 一 组 ， 构 成 了 588 位 的 帧 。 每 帧 包含 192 位 数据 位 (24 个 字 
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节 )， 其 余 的 396 位 用 于 纠 错 和 控制 位 。 一 直到 此 ， 音 频 CD Al CD-ROM 的 数据 存储 模式 完 
全 相同 。 

黄皮书 中 增加 的 内 容 是 将 98 帧 作为 一 个 CD-ROM AER, WE 2-26 所 示 。 每 个 CD-ROM 
扇 区 以 一 个 16 字 节 的 前 导 区 开始 ， 其 中 前 12 个 字 节 内 容 为 00FFFFFFFFFFFFFFFFFFFF00 
(十 六 进 制 )， 使 光驱 能 识别 这 是 CD-ROM BK KEE. HM 3 个 字 节 为 扇 区 号 ， 由 于 
光盘 采用 的 是 单 向 螺旋 线 存 放 数 据 ， 不 像 磁 盘 那 样 ， 磁 道 是 同心 的 ， 所 以 光盘 无 法 像 磁盘 那 
样 ， 根 据 读 盘 头 的 位 置 来 精确 定位 扇 区 ， 只 能 是 由 光驱 软件 大 致 计算 一 个 位 置 ， 将 读 盘 头 移 
动 过 去 后 ， 在 该 位 置 附近 寻找 前 导 区 ， 读 出 其 中 的 扇 区 号 来 确定 位 置 是 否 准确 。 前 导 区 中 最 
后 的 一 个 字 节 说 明光 盘 的 数据 存储 方式 。 





每 个 符号 
= {= | m i oom 有 14 位 
42 个 符号 组 成 1 帧 
ke 588 位 组 成 1 帧 ， 每 帧 
BS aos etc aoe Soe eS 有 24 字 节 的 数据 
引导 区 98 帧 组 成 1 个 扇 区 
方式 1 的 扇 区 
| ee sc | (529%) 
16 字 节 2048 288 


图 2-26 CD-ROM 中 数据 存储 格式 


黄皮书 中 定义 了 两 种 数据 存储 方式 。 方 式 1 采用 图 2-26 所 示 的 格式 ， 每 个 扇 区 包括 16 
字 节 的 前 导 区 ，2048 个 字 节 的 数据 ， 然 后 是 288 个 字 节 的 纠 错 码 (十字 交叉 Reed-Solomon 
码 )。 方 式 2 将 纠 错 码 的 288 个 字 节 也 用 于 存放 数据 ， 和 数据 一 起 组 成 一 个 2336 个 字 节 的 数 
据 域 ， 这 种 存储 方式 主要 用 在 那些 不 需要 进行 纠 错 (或 没有 时 间 进 行 纠 错 ) 的 应 用 中 ， 如 音 
频 和 视频 数据 。 值 得 注意 的 是 ， 为 提高 光盘 的 可 靠 性 ， 标 准 中 采用 了 三 种 互相 独立 的 纠 错 模 
式 : 符号 内 纠 错 、 帧 内 纠 错 和 CD-ROM 扇 区 内 纠 错 。 这 样 ， 单 独 的 一 位 错误 可 以 在 符号 内 得 
到 纠正 ， 一 小 段 连续 的 错误 可 以 在 帧 内 得 到 纠正 ， 再 有 其 他 错误 就 在 扇 区 内 纠正 。 可 靠 性 的 
代价 是 需要 用 98 个 588 位 的 帧 ( 共 98 x 588/8=7203 字 节 ) 来 存放 2048 字 节 的 数据 ， 有 效 存 
ERRA 28%。 

单 速 CD-ROM 驱动 器 的 工作 速度 为 75 个 扇 区 / 秒 ， 这 样 方式 1 格式 的 光盘 的 数据 速率 
是 153 600 字 节 / 秒 , 方式 2 格式 的 光盘 为 175 200 字 节 / 秒 。 倍 速 光盘 的 速度 为 其 两 倍 ， 其 
他 速度 的 驱动 器 也 可 以 此 类 推 。 标 准 音频 CD 的 容量 是 存放 74 分 钟 的 音乐 ， 如 果 采 用 的 是 
方式 1 的 格式 ， 容 量 是 681 984 000 字 节 ， 也 就 是 一 般 说 的 650MB ， 因 为 MB=2” 字 节 ( 即 
1 048 576 字 节 )， 而 不 是 1 000 000 F. 

有 照例， 每 出 现 一 项 新 技术 ， 总 会 有 人 希望 挑战 极限 。 在 设计 CD-ROM 时 ， 飞 利 浦和 索 
尼 十 分 小 心 ， 要 求 在 写 人 数据 时 离 光盘 外 边沿 较 远 时 就 停止 写 操作 。 但 过 了 不 久 ， 一 些 光驱 
的 制造 商 就 让 他 们 生产 的 光驱 超出 了 标准 的 限制 ， 并 尽量 地 接近 光盘 的 物理 外 沿 ， 使 其 容量 
达到 700MB, ， 而 不 是 标准 的 650MB。 但 是 ， 随 着 技术 的 更 新 以 及 制造 空白 盘 的 标准 的 提高 ， 
703.12MB (333 000 个 2048 字 节 的 鹿 区 被 提高 到 360 000 个 ) 的 容量 成 为 了 事实 标准 。 

需要 指出 的 是 ， 即 使 是 32 倍速 的 CD-ROM 驱动 器 (4915200 字 节 / 秒 ) 也 无 法 在 速度 
上 和 快速 SCSI-2 硬盘 驱动 器 (10MB/s ) 相 比 。 当 你 意识 到 光盘 的 寻 道 时 间 通 常 为 几 百 毫秒 


计算 机 系统 组 成 a 


时 ， 你 就 会 明白 尽管 CD-ROM 的 存储 容量 很 大 ， 它 的 性 能 和 硬盘 相 比 却 不 在 一 个 级 别 上 。 

1986 年 ， 飞 利 浦 再 次 通过 发 布 绿 皮 书 ， 增 加 了 图 形 标准 和 在 一 个 遍 区 内 交叉 存放 音频 、 
视频 和 数据 的 能 力 ， 为 多 媒体 CD-ROM 奠定 了 基础 。 

CD-ROM 的 最 后 一 个 难题 是 文件 系统 。 为 使 同一 张 CD-ROM 能 在 多 台 计 算 机 上 使 用 ， 
必须 对 CD-ROM 上 的 文件 系统 有 一 个 统一 的 定义 。 为 达到 这 个 统一 ， 多 家 计算 机 公司 的 代 
表 在 加 利 福 尼 亚 州 和 内 华 达 州 交界 处 的 High Sierras 的 Tahoe 湖 相 会 ， 定 义 了 一 个 他 们 称 为 
High Sierra 的 文件 系统 ， 后 来 被 国际 标准 (IS 9660) 所 采纳 。 该 标准 有 三 个 层次 。 第 一 层 规 
定 文件 名 不 能 超过 8 个 字符 长 ， 并 可 以 有 不 超过 3 个 字符 的 扩展 名 (MS-DOS 的 文件 命名 规 
则 )。 文 件 名 中 的 字符 只 能 是 大 写字 母 、 数 字 和 下 划 线 。 目 录 艇 套 不 超过 8 层 ， 目 录 不 允许 有 
扩展 名 。 它 还 规定 所 有 文件 必须 连续 存放 ， 这 对 于 只 写 一 次 的 存储 介质 来 说 不 成 问题 。 遵 从 
IS 9660 第 一 层 标准 的 所 有 CD-ROM 可 以 用 MS-DOS、Apple 计算 机 、UNIX 计算 机 或 所 有 计 
算 机 读 出 。CD-ROM 的 出 版 者 将 这 看 成 是 它 的 最 大 优点 。 

IS 9660 第 二 层 允 许 文 件 名 的 长 度 不 超过 32 个 字符 长 ， 第 三 层 允许 文件 不 连续 存放 。 
Rock Ridge 扩展 名 (古怪 的 名 字 来 自 Mel Brooks 的 电影 Blazing Saddles ) 允许 使 用 长 文件 名 
(对 于 UNIX ), UID, GID 和 符号 连接 ， 但 不 遵从 第 一 层 规定 的 CD-ROM 不 能 被 一 些 老 旧 的 
计算 机 读 出 。 


2.3.8 ”可 刻 光 盘 


最 初 ， 制 作 CD-ROM 母 盘 (或 音频 CD HA) 的 设备 十 分 昂贵 但是， 计算机 行业 中 不 
会 有 任何 东西 长 久 处 于 高 价位 。 到 20 世纪 90 年 代 中 期 ，CD 刻 盘 机 的 大 小 已 和 普通 的 播放 机 
相差 无 几 ， 并 作为 普通 的 外 围 设 备 出 现在 许多 计算 机 商场 中 。 由 于 一 旦 写 过 以 后 ，CD-ROM 
的 内 容 将 无 法 氛 除 ， 所 以 这 种 设备 和 磁盘 相 比 还 是 有 些 区 别 。 但 是 ， 刻 盘 机 还 是 很 快 在 作为 
大 容量 磁盘 的 备份 介质 、 人 允许 个 人 或 正在 起 步 的 小 公司 小 批量 生产 自己 的 CD-ROM ( 数 百 张 ， 
不 超过 千张 ), 或 者 为 大 批量 的 CD 生产 商 制作 母 盘 等 许多 应 用 中 找到 了 生存 之 地 。 用 于 刻 盘 
机 进行 刻录 的 光盘 ， 我 们 称 其 为 可 刻 光盘 ， 也 就 是 通常 说 的 CD-R ( CD-Recordable )。 

CD-R 在 大 小 上 和 CD-ROM 一 样 ， 最 初时 也 是 120mm 的 空白 盘 ， 只 是 CD-R 有 一 条 
0.6mm WAR, FASE S| S ROEM AI. MEA 0.3mm 的 正弦 偏 移 ， 频 率 为 22.05kHz， 
用 来 准确 控制 CD-R 的 转速 ， 并 在 必要 时 加 以 调整 。 起 初 的 CD-R 在 外 观 上 也 和 普通 的 CD- 
ROM 相同 ， 只 是 CD-R 表面 是 金色 ， 而 不 像 CD-ROM 那样 表面 是 银色 。 表 面 是 金色 是 因为 
CD-R 用 真正 的 金子 代替 钢 来 做 反射 层 。 和 真正 的 CD-ROM 不 同 ， 它 们 的 表面 是 实 实在 在 的 
HARF, m CD-R 的 止 区 和 凸 区 用 不 同 的 反射 光 来 模拟 ， 这 点 是 通过 在 碳酸 盐 脂 和 人 金 质 反 
射 层 之 间 加 上 一 层 染 料 来 实现 的 ， 如 图 2-27 所 示 。 目 前 使 用 的 有 两 种 不 同 的 染料 ， 一 种 是 花 
青 ， 其 颜色 是 绿色 的 ， 另 一 种 是 栈 葫 染料， 颜色 为 黄 桔 色 。 化 学 家 们 正在 为 这 两 种 染料 哪 种 
更 好 一 些 吵 个 没完 。 最 终 ， 铝 反射 层 代 蔡 了 金 质 的 发 射 层 。 

CD-R 被 刻写 之 前 ， 染 料 层 是 透明 的 ， 激 光束 可 以 穿 过 它 并 从 金 质 层 反射 回来 。 刻 盘 
时 ， 照 射 CD-R 的 激光 能 量 被 调 高 到 8 ~ 16mW， 光 束 照 射 到 染料 的 一 个 点 上 时 产生 的 热 
量 使 之 发 生化 学 反应 ， 改 变 了 染料 的 分 子 结构 ， 产 生 一 个 黑 点 。 读 出 时 ( 激光 束 的 能 量 为 
0.5mW )， 光 接收 器 就 可 以 分 辨 出 染料 被 照射 过 的 黑 点 和 未 被 照射 过 的 透明 区 ， 并 用 这 个 区 
别 来 对 应 普通 光盘 的 四 区 和 凸 区 ， 其 至 在 普通 的 CD-ROM 或 音频 CD 的 读 盘 机 上 也 是 这 样 
区 分 的 。 
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图 2-27 CD-R 光盘 截面 和 激光 层 ( 并 不 表示 真正 的 厚度 比例 )。CD-ROM 结构 上 与 此 类 似 ， 
只 是 没有 染料 层 ， 并 用 铅 质 的 凹 点 代替 了 反射 层 


每 种 CD 都 有 其 引 以 为 豪 的 颜色 作为 标准 的 封面 ,CD-R 也 不 例外 ， 它 的 标准 称 为 桔 皮 书 ， 
于 1989 年 出 版 。 这 个 标准 除 定义 了 CD-R 的 格式 之 外 ， 还 定义 了 CD-ROM XA 的 格式 ， 这 
种 新 的 格式 允许 增 量 刻写 CD-R， 今 天 几 个 扇 区 ， 明 天 几 个 扇 区 ， 然 后 下 个 月 再 刻 几 个 扇 区 。 
一 次 刻写 在 CD-R 上 的 几 个 连续 扇 区 被 称 为 CD-ROM 道 。 

CD-R 最 早 的 应 用 之 一 是 柯达 的 PhotoCD。 应 用 这 个 系统 ， 顾 客 把 已 经 拍 好 的 胶卷 和 以 
前 的 PhotoCD 盘 交 给 图 片 社 ， 然 后 就 可 以 拿 回 同样 的 PhotoCD 盘 片 ， 只 是 胶卷 (底片 ) 上 的 
新 照片 已 经 写 在 了 盘 上 ， 成 为 一 个 新 的 CD-ROM 道 。 每 卷 胶卷 用 一 个 新 的 CD-R 来 存放 实在 
是 昂贵 了 一 些 ， 所 以 ， 必 须 使 用 增 量 刻 盘 标准 。 

当然 ， 增 量 刻 盘 也 带 来 了 新 的 问题 。 在 桔 皮 书 之 前 ， 所 有 的 CD-ROM 在 起 始 处 都 各 有 
一 个 独立 的 目录 卷 表 ( Volume Table of Contents, VTOC )， 但 这 对 增 量 刻 盘 ( 也 就 是 说 多 道 ) 
就 不 起 作用 了 。 桔 皮 书 中 对 此 的 解决 方法 是 给 每 个 CD-ROM 道 分 配 一 个 单独 的 VTOC， 其 中 
所 列 的 文件 可 能 包括 其 前 面 各 道中 的 部 分 或 所 有 文件 。CD-R 放 和 光驱 后 ， 操 作 系 统 搜寻 所 有 
CD-ROM 道 ， 并 定位 到 最 近 使 用 的 VTOC， 它 给 出 了 CD-R 的 当前 状态 。 通 过 在 当前 VTOC 
中 列 出 一 些 (但 不 是 全 部 ) 其 前 面 道中 的 文件 ， 使 给 出 被 删除 文件 的 痕迹 成 为 可 能 。CD- 
ROM 道 可 以 分 组 组 成 话 路 ， 这 就 产生 了 多 话 路 CD-ROM。 标准 的 音频 CD 播放 器 只 能 读 出 整 
张 盘 起 始 处 的 VTOC， 所 以 无 法 读 出 多 话 路 CD. 

CD-R 的 出 现 使 各 行 各 业 的 个 人 和 公司 能 方便 地 对 CD-ROM ( 包括 音频 CD ) 进行 复制 ， 
也 逐渐 带 来 了 对 出 版 商 版 权 的 侵犯 。 目 前 ， 人 们 已 经 发 明了 一 些 办 法 来 为 盗版 制造 障碍 ， 甚 
至 使 CD-ROM 离开 出 版 商 提供 的 读 盘 软件 就 无 法 读 出 。 方 法 之 一 是 将 CD-ROM 上 所 有 文件 
的 长 度 写成 好 几 个 GB， 这 样 ， 用 标准 的 读 盘 软件 将 无 法 将 文件 复制 到 硬盘 中 ， 而 文件 的 实际 
长 度 在 出 版 商 提供 的 专用 读 盘 软件 中 ,或 隐藏 ( 可 能 还 是 加 密 后 ) 在 CD-ROM 的 某 个 意 想 不 
到 的 地 方 。 男 一 种 办 法 是 在 选 定 的 几 个 扁 区 中 有 意 写 和 一些 错误 的 ECC 码 ， 预 计 一 般 的 CD 
复制 软件 将 会 自动 “修复 ”这 些 错误 ,但 光盘 的 应 用 软件 自己 却 对 这 些 ECC 码 进 行 检 查 ， 如 
果 它 们 “正确 ”的 话 就 停止 执行 。 还 可 以 采用 非 标准 的 道 间 沟 或 其 他 的 物理 上 的 “ 硬 伤 ”来 
防止 对 CD 的 非法 复制 。 
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2.3.9 ”可 擦 写 光 盘 


尽管 人 们 仍 在 使 用 其 他 一 次 性 写 的 介质 ， 如 纸 和 胶片 等 ， 但 大 家 还 是 希望 有 可 多 次 重 写 
的 CD-ROM。 现 在 能 满足 人 们 这 个 需求 的 是 可 擦 写 光 盘 CD-RW ( CD-ReWritable )， 其 大 小 
和 CD-R 相同 。 当 然 ， 用 的 染料 不 再 是 花 青 和 枉 著 染料 ， 而 是 用 银 、 钢 、 镜 和 兢 组 成 的 合金 
做 记录 层 。 这 种 合金 有 两 个 稳定 态 : 晶 态 和 非 晶 态 ， 两 个 状态 有 不 同 的 反射 特性 。 

CD-RW 的 驱动 器 使 用 3 种 不 同 能 量 的 激光 。 在 高 能 激光 照射 下 ， 合 金 熔化 并 从 高 反射 性 
的 唱 态 转化 为 低 反 射 性 的 非 晶 态 ， 表 示 思 区。 在 能 量 中 等 的 激光 束 照射 下 ， 合 金 熔化 并 重新 
转化 为 本 来 的 晶 态 ， 又 成 为 凹 区 。 低 能 激光 可 以 感知 材料 的 状态 ( 用 来 读 盘 )， 但 不 会 导致 状 

CD-RW 未 能 取代 CD-R 的 原因 是 CD-RW 的 空 盘 价 格 高 出 CD-R 空 盘 许 多 。 而 且 ， 对 那 
些 备份 硬盘 的 应 用 来 说 ，CD-R 只 允许 一 次 写 、 不 会 被 误 操作 清除 的 特性 也 是 一 大 优点 ， 而 不 
是 缺点 。 


2.3.10 DVD 


最 初 的 CD/CD-ROM 格式 于 1980 年 面世 ， 到 20 世纪 90 年 代 中 期 ， 光 媒体 技术 取得 长 
足 发 展 ， 大 容量 的 光盘 价格 已 相当 低廉 。 与 此 同时 ， 好 菜 坞 也 有 用 光盘 替代 传统 的 影像 磁带 
的 意愿 ， 因 为 光盘 的 影像 质量 高 、 制 造成 本 低 、 可 长 时 间 保 存 、 在 商店 中 的 架子 上 占用 的 空 
间 比 较 小 ， 而 且 不 需要 倒 带 。 这 就 好 像 是 给 光盘 的 发 展 又 增加 了 一 个 车 轮 。 

这 3 个 市 场 广阔 而 又 能 量 巨大 的 行业 的 市 场 需求 和 技术 的 结合 造就 出 了 DVD， 它 最 早 
是 数字 影像 盘 (Digital Video Disk) 的 缩写 ， 但 现在 一 般 指数 字 多 用 途 盘 Digital Versatile 
Disk) DVD 的 基本 设计 和 CD 相同 ， 也 是 120mm 直径 的 注入 碳酸 盐 的 盘 模 ， 由 激光 二 极 管 
照射 的 凸 区 和 四 区 组 成 ， 通 过 光 接 收 器 读 和 信息。 其 新 特性 有 : 

1) MIRE) (DVD 为 0.4um， 而 CD 为 0.8hm )。 

2) 螺旋 线 更 紧凑 (DVD 道 间距 为 0.74um, m CD 的 道 间 距 为 1.6um )。 

3 ) 使 用 红色 激光 ( DVD 激光 的 波长 为 0.65hm， 而 CD 的 波长 为 0.78hm )。 

这 些 改进 使 DVD 的 容量 比 普通 光盘 提高 了 7 倍 ， 达 到 4.7GB。 单 速 DVD 驱动 器 的 工作 
速度 为 1.4MB/s( 而 CD 为 150KB/s )。 遗 憾 的 是 ， 更 改 为 红色 激光 意味 着 高 端 市 场 的 DVD 需 
要 加 装 另外 一 个 光源 才能 读 已 有 的 CD Al CD-ROM, 增加 了 DVD 的 复杂 性 和 成 本 。 

那么 ，4.7GB 的 容量 空间 就 足够 了 吗 ? 也 许 。 使 用 MPEG-2 压缩 格式 (IS 13346 中 定义 
的 标准 ), 一 张 4.7GB 的 DVD 可 以 以 高 分 辩 率 (720 x 480) 存放 133 分 钟 的 全 屏幕 、 全 动作 
的 影像 ， 还 可 以 包括 至 多 8 声 道 的 对 白 和 32 种 语言 字幕 。 好 莱 坞 到 目前 为 止 已 推出 的 电影 中 
KAA 92% 的 时 间 不 超过 133 分 钟 。 可 是 ， 还 有 一 些 应 用 ， 如 多 媒体 游戏 和 参考 书 可 能 需要 
更 大 的 存储 空间 ， 好 莱 坞 也 乐意 将 多 部 电影 放 在 同一 张 盘 中 , AK DVD 定义 了 下 面 4 种 格式 : 

1 ) 单 面 单 层 (4.7GB )。 

2) 单 面 双 层 ( 8.5GB )。 

3) 双 面 单 层 ( 9.4GB )。 

4) RHE (17GB )。 

为 什么 会 有 这 么 多 种 格式 ? 一 言 以 蔽 之 : 政治 斗争 的 结果 。 飞 利 浦和 索尼 公司 要 求 用 单 
面 双 层 格 式 提供 高 容量 的 DVD， 而 东芝 和 时 代 华 纳 却 坚持 采用 双 面 单 层 格 式 。 飞 利 浦和 索尼 
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认为 观众 不 会 愿意 将 盘 翻 一 面 ， 可 时 代 华纳 却 不 相信 可 以 将 两 层 放 在 一 面 上 。 最 终 妥协 下 来 ， 
推出 所 有 4 种 组 合格 式 ， 由 市 场 来 决定 取舍 。 好 了 ， 现 在 市 场 发 话 了 ， 飞 利 浦和 索尼 是 对 的 。 
永远 不 要 和 技术 作对 。 

双 层 技术 是 在 光盘 底层 有 一 层 反 射 层 ， 上 面 是 一 层 半 反射 层 。 根 据 激光 聚焦 在 哪 层 来 决 
定 反射 哪 一 层 。 为 提高 可 靠 性 ， 需 要 将 底层 的 四 区 和 上 晤 区 设计 得 稍微 大 一 些 ， 所 以 其 容量 比 
上 层 要 稍微 小 一 些 。 

将 两 张 0.6mm 厚 的 单 面 盘 的 背面 互相 粘 在 一 起 就 制 成 了 一 张 双 面 盘 。 为 使 所 有 格式 的 盘 
片 厚度 一 致 ， 单 面 盘 也 是 由 0.6mm 的 盘 片 后 面 粘 上 空白 底层 组 成 《也 许 将 来 可 以 在 背面 放 上 
133 分 钟 的 广告 ， 否 则 ， 满 怀 希 望 的 用 户 肯 定 会 对 上 面 放 了 些 什么 而 好 奇 )。 图 2-28 给 出 了 双 
面 双 层 盘 的 结构 。 


多 碳酸 盐 盘 基 1 
i 














0.6mm 单 "| 














ld We [sl 





0.6mm 单 面 盘 i= 


EF lew | EJ 
SRB EEA IED 
图 2-28 UAW DVD AH 


DVD 是 由 10 家 娱乐 电子 公司 组 成 的 联盟 发 明 的 ， 其 中 7 家 是 日 本 的 公司 ， 和 好 莱 坞 的 
主要 电影 公司 ( 其 中 有 些 就 是 这 些 日 本 电子 公司 拥有 的 ) 保持 着 密切 的 合作 关系 。 计 算 机 和 
电信 行业 并 没有 被 邀请 参加 这 顿 大 餐 ， 造成 了 DVD 主要 用 于 电影 出 租 的 结果 。 例 如 ，DVD 
的 标准 特性 包括 实时 跳 过 一 些 肪 脏 的 场景 (方便 家 长 把 NC17 级 影片 换 成 可 供 孩 子 看 的 安全 
影片 )、6 声 道 ， 并 支持 宽窄 屏幕 的 变换 。 宽 窗 屏 幕 的 变换 是 指 DVD 机 可 以 动态 修剪 电影 的 
左边 或 右边 ， 使 电影 的 宽 高 比 (一 般 为 3 : 2 ) 可 以 适应 目前 的 电视 机 ( 宽 高 比例 为 4 : 3 )。 

DVD 还 有 一 项 特点 ， 计 算 机 行业 也 许 还 没有 想到 ， 这 就 是 有 意 使 美国 的 盘 和 欧洲 大 陆 的 
盘 不 兼容 ， 其 他 大 陆 也 有 各 自 的 标准 。 由 于 新 电影 总 是 先 在 美国 放映 ， 在 美国 出 了 DVD ANY 
同时 ， 电 影 拷贝 发 行 到 欧洲 ， 好 莱 坞 运用 这 个 “特点 ”来 保证 欧洲 人 无 法 过 早 从 美国 买 到 盘 
而 影响 电影 在 欧洲 的 票房 。 如 果 好 莱 坞 来 统治 计算 机 行业 的 话 ， 也 许 现在 我 们 在 美国 用 的 软 
盘 是 3.5 英寸 ， 而 到 欧洲 就 要 用 9cm 的 软盘 。 


2.3.11 Blu-Ray 


在 计算 机 行业 ， 没 有 任何 技术 能 一 直 保 持 住 其 地 位 ， 存 储 技术 也 不 例外 。DVD 刚刚 推 
出 不 久 , 一 种 新 的 技术 Blu-Ray 就 威胁 要 让 它 过 时 。 之 所 以 这 样 命名 ， 是 因为 它 用 蓝 色 的 激 
光 取 代 了 DVD 用 的 红色 激光 。 蓝 色 激 光波 长 比 红色 的 要 短 ， 这 就 使 它 可 更 精确 地 聚焦 ， 能 
分 辨 出 更 小 的 凸 区 和 四 区 。 单 面 的 Blu-Ray 盘 可 存放 大 约 25GB 的 数据 ， 双 面 的 存储 容量 约 
50GB。 数 据 速率 约 为 4.5MB/s， 对 光盘 来 说 这 已 经 相当 不 错 , 但 与 磁盘 比 还 相差 很 远 (参考 : 
ATAPI-6 的 磁盘 速率 为 100MB/s， 而 宽带 Ultras SCSI 的 速率 为 640MB/s )。 预 计 Blu-Ray 最 
终 将 完全 取代 CD-ROM 和 DVD, 但 这 个 过 程 将 持续 数 年 。 
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24 输入 /输出 设备 


我 们 在 本 章 开始 已 经 了 解 到 ,计算机 系统 有 三 个 主要 组 成 部 分 : CPU、 存 储 器 (EAA 
辅 存 ) 和 输入 /输出 设备 ， 如 打印 机 、 扫 描 仪 及 调制 解 调 器 等 。 前 面 我 们 介绍 了 CPU 和 存储 
器 ， 下 面 我 们 介绍 一 些 常 见 的 输入 /输出 设备 及 它们 是 如 何 和 计算 机 的 其 他 部 件 连接 的 。 


2.4.1 总 线 


物理 上 ， 大 多 数 个 人 计算 机 和 工作 站 的 结构 都 和 图 2-29 所 示 的 结构 类 似 。 通 常 在 一 个 金 
属 箱 的 底部 或 侧面 有 一 块 印刷 电路 板 ， 我 们 称 为 主 
板 ( mother board 或 parentboard )。 主板 上 ii A 
CPU 芯片 ， 还 有 若干 可 插入 DIMM 内 存 条 的 播 覃 
以 及 其 他 各 种 附属 芯片 。 另 外 ， 还 有 沿 主板 方向 蚀 
刻 的 总 线 和 供 插 输 入 /输出 卡 之 用 的 插 模 。 

图 2-30 给 出 了 一 台 简 单 的 低档 个 人 计算 机 的 
逻辑 结构 。 它 只 有 一 条 总 线 ， 用 来 连接 CPU、 存 
储 器 和 输入 /输出 设备 ; 但 多 数 计算 机 系统 有 两 条 边缘 接头 
或 更 多 的 总 线 。 每 个 输入 /输出 设备 由 两 部 分 组 图 2.29 个 人 计算 机 物理 结构 
成 ,一 部 分 为 I/O 控制 器 ， 包 括 绝 大 多 数 的 接口 电 
路 ; 另 一 部 分 为 设备 本 身 ， 如 磁盘 驱动 器 等 。LO 控制 器 通常 直接 集成 在 主板 中 ， 有 时 也 以 
插 卡 的 形式 插 在 主板 的 空 槽 里 。 尽 管 显 示 器 ( 监视 器 ) 是 计算 机 的 必 配 设备 ， 但 显示 控制 器 
(显卡 ) 依然 是 插 接 卡 ， 可 以 让 用 户 选择 是 否 增加 图 形 加 速 卡 和 另外 的 显存 等 。IO 控制 器 通 
过 电缆 用 机 箱 后 面 的 插座 和 它 的 设备 连接 在 一 起 。 


监视 器 





光盘 驱动 器 ”硬盘 驱动 器 
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图 2-30 简单 个 人 计算 机 的 逻辑 结构 


VO 控制 器 的 任务 是 控制 其 输入 /输出 设备 和 处 理 总 线 上 的 访问 信号 。 例 如 ， 当 程序 需要 
磁盘 上 的 数据 时 ， 它 将 给 磁盘 控制 器 一 个 命令 ， 然 后 对 磁盘 驱动 器 发 出 寻 道 及 其 他 命令 。 磁 
头 定位 到 相应 的 磁道 和 扇 区 后 ， 驱 动 器 开始 以 位 流 的 形式 向 控制 器 输出 数据 。 将 位 流 打 包 成 
组 后 写 人 内 存 就 是 VO 控制 器 的 任务 了 。 一 组 通常 由 一 个 或 几 个 字 组 成 。LIO 控制 器 不 用 CPU 
干涉 就 能 完成 对 内 存 的 读 写 ， 这 种 方式 称 为 直接 存储 访问 (Direct Memory Access )， 缩 写 为 
DMA。 数 据 传送 完成 后 ，IO 控制 器 发 出 中 断 请 求 ， 要 求 CPU 挂 起 当前 运行 的 程序 并 启动 一 
个 中 断 处 理 的 特定 过 程 ， 检 查 此 次 读 写 是 否 有 错误 ， 完 成 必要 的 处 理 ， 并 通知 操作 系统 当前 
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(109) 输入 /输出 结束 。 中 断 处 理 过 程 完成 后 ，CPU 从 断 点 开始 继续 执行 被 挂 起 的 程序 。 

总 线 不 仅 要 供 VO 控制 器 使 用 ， 还 被 CPU 用 来 取 指 令 和 数据 。 如 果 CPU 和 VO 控制 器 需 
要 同时 使 用 总 线 的 话 ， 会 出 现 什么 情况 呢 ?” 这 将 由 一 片 名 为 总 线 仲裁 器 的 芯片 来 决定 由 谁 来 
使 用 。 一 般 来 说 ， 输 入 /输出 设备 的 优先 级 高 于 CPU， 因 为 磁盘 和 其 他 一 些 移动 设备 不 能 暂 
停 ， 强 制 它们 等 待 会 导致 数据 丢失 。 只 有 当 没 有 输入 /输出 请 求 时 ，CPU 才能 独占 整个 总 线 
周期 来 访问 存储 器 。 当 然 ， 此 时 如 果 有 输入 /输出 设备 运行 ， 则 该 设备 将 在 需要 时 发 出 总 线 
请 求 ， 并 得 到 使 用 总 线 的 授权 。 这 个 过 程 就 是 总 线 窃取 ， 它 将 减 慢 计算 机 程序 运行 的 速度 。 

个 人 计算 机 刚 出 现时 ， 这 种 设计 方案 工作 良好 ， 因 为 当时 的 计算 机 的 几 大 部 件 基本 上 比 
较 平衡 。 然 而 ， 随 着 CPU、 存 储 器 和 输入 /输出 设备 的 速度 越 来 越 快 ， 带 来 了 新 的 问题 ， 即 
总 线 将 无 法 负担 现在 的 负载 。 对 于 将 要 淘汰 的 系统 ， 比 如 工程 工作 站 ， 解 决 这 个 问题 的 方法 
是 为 新 型 号 的 工作 站 设计 一 个 新 的 、 更 快 的 总 线 。 由 于 没有 人 会 将 老 的 输入 /输出 设备 用 于 
新 型 号 上 ,~ 所 以 这 也 不 失 为 一 种 解决 办 法 。 

可 是 ， 对 PC 来 说 ， 人 们 经 常 对 CPU 进行 升级 ,但 却 要 在 新 系统 中 保留 原来 的 打印 机 、 
扫描 仪 和 调制 解 调 器 等 外 部 设备 。 而 且 ， 为 IBM PC 总 线 提供 各 种 各 样 的 输入 /输出 设备 已 经 
成 为 一 个 巨大 的 行业 ， 该 行业 把 它 的 全 部 投资 投入 并 启动 后 ， 还 几乎 没有 获得 任何 利润 。 在 
推出 自己 PC 的 新 型 号 PS/2 Ja, IBM 才 艰 难 地 认识 到 这 点 。PS/2 有 全 新 的 、 速 度 更 快 的 总 
线 ， 但 绝 大 多 数 兼 容 机 的 制造 商 使 用 的 还 是 旧 的 PC 总 线 ， 即 现在 所 说 的 ISA 总 线 (Industry 
Standard Architecture， 行 业 标准 结构 总 线 )。 多 数 磁 盘 和 其 他 输入 /输出 设备 的 提供 商 也 继续 
为 该 总 线 提供 控制 器 ，IBM 突然 发 现 了 自己 的 壕 众 境地 ， 即 它 成 了 唯一 不 和 IBM PC 兼容 的 
PC 制造 商 。 最 终 ， 还 是 被 迫 回 来 支持 ISA 总 线 。 今 天 ISA 总 线 也 只 能 在 旧 的 系统 或 者 是 计 

[ol 算 机 博物 馆 中 见 到 ， 因 为 它 也 早 被 更 新 和 更 快 的 总 线 所 取代 。 顺 便 说 一 句 ， 请 注意 在 讨论 机 
器 层次 时 ，ISA 代表 指令 系统 层 ， 不 要 和 ISA 总 线 相 混淆 。 

PCI 和 PCIe 总 线 

不 过 ， 尽 管 市 场 不 希望 改变 任何 东西 ， 但 旧 总 线 实在 是 太 慢 了 ， 所 以 有 些 事情 总 是 要 发 
生 的 。 在 这 种 形势 下 ， 一 些 公 司 开发 出 可 支持 多 总 线 的 机 器 ， 其 中 一 条 是 原来 的 旧 总 线 ， 或 
与 其 兼容 的 升级 版 一 一 EISA 总 线 (Extended ISA, 扩展 的 ISA 总 线 )。 最 后 的 赢家 是 PCI 总 
Be (外 部 设备 部 件 互 连 ，Peripheral Component Interconnect )， 它 是 由 Intel 设计 的 ,但 Intel 决 
定 将 其 专利 完全 公开 ， 以 鼓励 整个 行业 (包括 其 竞争 对 手 ) 来 采用 它 。 

PCI 总 线 可 以 用 在 很 多 的 配置 中 ， 图 2-31 给 出 了 一 种 典型 用 法 。 在 这 种 配置 中 ，CPU 
通过 专用 的 高 速 连 线 和 存储 控制 器 相连 ， 该 控制 器 再 通过 PCI 总 线 和 内 存 直 接 相连 ， 这 样 ， 
CPU 和 存储 器 之 间 的 通信 负载 就 不 用 通过 PCI 总 线 。 其 他 外 部 设备 直接 连 在 PCI MARE. RK 
用 这 种 方案 的 计算 机 大 多 还 有 两 到 三 个 空 的 PCI RAY, AT DALE PA PCI 总 线 输入 /输出 
卡 来 增添 新 的 外 部 设备 。 

在 计算 机 的 世界 里 ， 速 度 再 快 也 总 会 有 人 觉得 慢 。 这 个 命运 同样 降临 到 PCI 总 线 的 头 上 ， 
它 现在 正 逐 步 被 PCI Express (缩写 为 PCle ) 所 取代 。 有 目前 的 多 数 计算 机 同时 支持 这 两 条 总 
线 ， 所 以 用 户 们 可 以 把 新 的 快速 设备 连接 到 PCIe 上， 而 把 旧 的 慢 速 设 备 连 接 到 PCI 总 线 上 。 

PCI 取代 旧 的 ISA 总 线 仅仅 是 在 速度 上 有 所 提升 ， 且 提高 了 并 行 传输 的 数据 的 位 数 ， 但 
PCIe 和 PCI 比 却 是 做 了 根本 的 改变 。 实 际 上 ，PCIe 甚至 都 不 能 称 为 总 线 了 。 它 是 采用 串 行 传 
输 和 包 交 换 的 点 到 点 的 网 络 ， 传 输 方 式 更 接近 互联 网 ， 而 不 像 是 传统 的 总 线 。 图 2-32 给 出 了 

PCle 的 体系 结构 。 
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存储 器 总 线 


PCI 总 线 





PCIe 设 备 PCI 总 线 


图 2-32 带 3 个 PCIe 端口 的 PCI 系统 结构 示例 


PCle 的 问题 马上 就 显露 出 来 。 首 先 ， 设 备 之 间 是 串 行 连接 的 ， 也 就 是 说 ， 每 次 传输 1 位 
而 不 是 原来 的 8、16、32 或 者 64 位 。 人 们 也 许 会 觉得 64 位 传输 的 带宽 肯定 要 比 1 位 的 带宽 
高 很 多 ,但 实际 上 ，64 位 传输 带 来 的 延迟 上 的 细微 差别 ， 也 称 为 扭曲 ， 意 味 着 传输 的 时 钟 不 
能 太 高 。 串 行 传输 可 以 使 用 高 时 钟 频率 ， 足 够 弥补 缺乏 并 行 带 来 的 速度 上 的 损失 。PCI 总 线 
最 高 时 钟 频率 为 66MHz， 就 算 每 个 周期 传输 64 位 ， 数 据 传 输 率 也 就 是 528MB/s。 而 如 果 采 
用 8Gbps 的 时 钟 频率 ， 即 使 是 串 行 传输 ，PCIe 的 数据 传输 率 也 达到 了 1GB/s。 而 且 ，PCIe 并 
没有 限制 设备 一 定 是 用 单 对 导线 和 根 组 合体 (root complex) 或 交换 体 ( switch) 连接 。 一 个 
设备 最 多 可 以 有 32 对 称 为 数据 道 (lane) 的 导线 。 由 于 数据 道 间 不 需要 同步 ， 因 此 扭曲 就 不 
成 为 问题 。 大 多 数 主板 上 有 1 个 16 道 的 插 权 用 来 插图 形 卡 ， 使 用 PCIe 3.0 时 可 给 图 形 卡 提供 
16GB/s 的 带宽 ， 大 约 是 PCI 图 形 卡 带宽 的 30 倍 。 对 于 日 益 增 长 的 3D 之 类 的 应 用 这 样 的 带宽 
是 必需 的 。 

其 次 ， 所 有 的 通信 都 是 点 到 点 进行 的 。 当 CPU 要 和 某 设备 通信 时 ， 它 发 送 一 个 数据 包 
给 设备 ,一 般 来 说 不 久 后 可 以 得 到 应 答 。 数 据 包 先 通过 在 主板 上 的 根 组 合体 ， 然 后 到 达 设 备 ， 
也 许可 能 先 要 通过 一 个 交换 体 ( 如 果 设 备 是 一 个 PCI 设备 ， 先 通过 PCI 桥 )。 从 所 有 设备 监听 
同一 条 总 线 的 系统 发 展 到 点 对 点 通信 系统 的 过 程 ， 基 本 和 以 太 网 (一 种 常见 的 局 域 网 ) 的 发 
展 过 程 同步 ， 以 太 网 起 初 也 是 用 广播 信道 方式 , 但 目前 也 采用 交换 方式 来 支持 点 到 点 的 通信 。 
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2.4.2 终端 


目前 ， 计 算 机 还 有 许多 种 类 型 的 输入 /输出 设备 ， 下 面 我 们 还 将 讨论 几 种 常用 的 设备 。 
计算 机 终端 由 两 部 分 组 成 : 键盘 和 监视 器 。 在 巨型 机 时 代 ， 这 两 部 分 通常 组 合成 一 个 设备 ， 
通过 串 行 线 或 电话 线 连接 主机 。 在 机 票 预订 、 银 行 和 其 他 面向 巨型 机 的 应 用 行业 ， 这 些 设备 
的 应 用 依然 十 分 广泛 。 对 个 人 计算 机 来 说 ， 键 盘 和 监视 器 是 各 自 独立 的 设备 。 不 管 怎样 ， 这 
两 部 分 的 技术 是 一 样 的 。 

1. 键盘 

键盘 有 好 几 种 。 最 早 的 IBM PC 键盘 在 每 个 键 下 都 有 一 个 弹簧 开关 ， 当 键 被 按 下 时 ， 会 
发 出 键盘 声 ， 给 人 一 种 实 实在 在 的 反馈 。 现 在 ,一些 便宜 的 键盘 只 在 键 被 按 下 时 产生 机 械 接 
触 ， 好 一 些 的 在 按键 和 线路 板 之 间 装 有 一 层 弹 性 材料 (一 种 橡皮 )， 每 个 键 下 面 有 用 这 种 材料 
做 的 一 个 小 圆 垫 ， 这 样 ， 键 被 按 下 时 ， 圆 垫 会 产生 弯曲 ， 它 上 面 的 小 导电 材料 将 接 通 线路 板 
的 电路 。 还 有 些 键盘 在 每 个 按键 上 有 磁性 材料 ， 键 按 下 时 将 通过 一 个 线圈 产生 可 以 检测 到 的 
电流 。 还 有 许多 其 他 设计 方案 的 键盘 也 在 应 用 ， 但 都 可 以 归 类 到 机 械 式 或 电磁 式 的 。 

对 个 人 计算 机 来 讲 ， 当 按键 被 按 下 时 ， 将 会 产生 一 个 中 断 请 求 ， 然 后 ， 键 盘 中 断 响应 程 
F (操作 系统 中 的 一 小 段 程序 ) 将 被 启动 ， 并 由 它 从 键盘 控制 器 的 寄存 器 中 读 出 被 按 下 的 键 
的 序号 (1 ~ 102 )。 键 被 松 开 时 ， 产 生 另 一 个 中 断 请 求 。 这 样 ， 若 用 户 按 下 SHIFT 键 ， 再 按 
FME, RERI M 键 ， 再 松 开 SHIFT 键 ， 操 作 系 统 能 知道 用 户 输入 的 是 大 写 的 “M”， 而 
不 是 小 写 “m”。 处 理 SHIFT. CTRL 和 ALT 这 些 多 键 组 合 ( 包 括 用 来 重启 PC 的 不 著名 的 
CTRL-ALTDEL 键 组 合 ) 的 工作 完全 是 由 软件 完成 的 。 

2. 触摸 屏 

当 键 盘 在 手动 打字 机 发 展 道路 上 高 枕 无 忧 时 ， 一 个 新 玩意 已 经 出 现 并 用 于 计算 机 的 输 
人， 这 就 是 触摸 屏 。 随 着 Apple 的 iPhone 在 2007 年 引入 触摸 屏 ， 它 成 为 了 一 个 畅销 产品 而 
被 大 家 了 解 和 熟悉 ， 实 际 上 它 的 历史 要 早 得 多 。 第 一 台 触 摸 屏 由 位 于 英国 Malvern WEAR 
达 研 究 所 于 1965 年 研制 ， 即 使 是 iPhone 广 为 宣 传 的 “ 捏 能力” 技术 也 可 以 追溯 到 多 伦 多 大 
学 1982 年 的 工作 。 从 那 时 起 ， 开 发 了 许多 不 同 的 技术 ， 并 成 功 应 用 到 市 场 。 

触摸 设备 有 两 大 类 : 不 透明 的 和 透明 的 。 典 型 的 不 透明 触摸 设备 是 笔记 本 型 计算 机 中 的 
触摸 板 ， 而 透明 的 触摸 设备 中 典型 的 是 智能 电话 或 平板 电脑 的 显示 屏 。 我 们 下 面 会 详细 讨论 
透明 的 这 一 类 ， 它 们 一 般 被 称 为 触摸 屏 。 触 摸 屏 主 要 可 分 为 红外 型 、 电 阻 型 和 电容 型 。 

红外 型 触摸 屏 在 屏幕 框 的 左边 沿 和 上 党 安装 有 红外 线 的 发 射 装置 ， 如 红外 的 发 光 二 极 管 
或 者 是 激光 发 生 器 ， 对 应 地 在 右边 沿 和 下 沿 安装 有 接收 装置 。 当 手指 、 笔 尖 或 者 其 他 不 透明 
的 物体 阻挡 了 一 条 或 多 条 光线 时 ， 对 应 的 接收 器 感应 到 这 个 信号 ， 并 由 硬件 设备 通知 操作 系 
统 哪 些 光 线 被 阻止 了 ， 这样， 操作 系统 可 计算 出 手指 或 笔尖 的 (x，y) 坐标 。 红 外 型 触摸 屏 
已 经 有 较 长 的 历史 ， 现 在 依然 在 自助 服务 设备 等 场合 使 用 ， 但 没有 应 用 于 移动 设备 上 。 

另外 一 类 电阻 型 触摸 屏 也 有 较 长 的 历史 了 。 它 由 两 层 构成 ， 上 面 一 层 具 有 一 定 的 弹性 ， 
布置 了 许多 水 平方 向 的 导线 ; 下 面 的 一 层 布 置 有 许多 垂直 方向 的 导线 。 当 手指 或 者 其 他 物体 
按压 屏幕 时 ， 上 层 的 一 条 或 多 条 导线 会 接触 (或 靠近 ) 到 下 层 垂直 方向 的 导线 ， 使 连接 在 导 
线 上 的 感应 器 能 判断 出 屏幕 上 哪 部 分 区 域 被 按压 下 去 了 。 人 制造 这 类 和 触摸屏 的 成 本 低廉 ， 被 广 
泛 应 用 于 对 价格 敏感 的 应 用 场合 。 

当 屏 幕 仅 仅 被 一 个 手指 触摸 时 ， 这 两 种 类 型 的 触摸 屏 均 可 正常 工作 ， 但 无 法 处 理 两 个 手 
指 同时 按 下 的 情景 。 我 们 以 红外 型 触摸 屏 为 例 来 详细 说 明 这 个 问题 ， 该 问题 对 于 电阻 型 触摸 
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屏 也 是 同样 存在 的 。 想 象 有 两 个 手指 分 别处 于 坐标 点 (3, 3) 和 (8, 8) 处 。 结 果 会 使 x=3 
和 x=8 两 条 垂直 的 光线 ， 以 及 ) 王 3 和 y=8 的 两 条 水 平 光线 被 阻挡 。 我 们 再 看 男 外 一 种 情形 ， 
手指 放 在 (3, 8) 和 (8，3 ) 处 ， 也 就 是 长 方形 (3, 3)、(8, 3) (8, 8) A (3, 8) HA 
外 两 个 顶点 上 ， 这 时 ， 还 是 同样 的 光线 被 阻挡 ， 造 成 软件 无 法 区 分 这 两 种 情形 。 这 个 问题 称 
为 重 影 ( ghosting )。 

为 了 能 检测 多 个 手指 同时 按 下 的 情况 一 一 区 分 “ 捏 ” 和 “ 撑 ” 这 两 个 手势 所 必需 的 特 
性 一 一 我 们 需要 一 种 新 的 技术 。 目 前 大 多 数 智能 手机 和 平板 电脑 (不 包括 数码 相机 和 其 他 设 
备 ) 中 使 用 的 是 投射 电容 触摸 屏 (projected capacitive touch screen )。 投 射电 容 触 摸 屏 也 有 多 
种 类 型 ， 最 常见 的 当 属 交互 电容 式 ( mutual capacitance )。 可 以 检测 到 两 点 或 更 多 点 被 同时 触 
摸 的 屏 统称 为 多 点 触摸 屏 。 下 面 我 们 简单 地 看 看 它们 的 工作 原理 。 

对 于 高 中 物理 知识 已 经 有 点 想 不 起 来 的 读者 来 说 ， 电 容 是 一 个 可 以 存储 电荷 的 装置 。 最 
简单 的 电容 由 两 个 被 绝缘 体 分 开 的 电极 组 成 。 现 在 的 触摸 屏 中 ， 网 格 状 的 垂直 布置 的 细 “ 导 
线 ” 被 水 平安 放 的 薄 绝 缘 层 分 隔 ， 当 手指 触摸 屏幕 时 ， 被 触摸 的 所 有 交叉 点 〈 也 许 相 隔 较 远 ) 
的 电容 就 会 发 生变 化 ， 而 这 种 变化 可 以 被 测量 到 。 作 为 现在 的 触摸 屏 不 同 于 以 前 的 红外 型 和 
电阻 型 触摸 屏 的 证 明 ， 你 可 以 试 着 用 钢笔 、 铝 笔 、 曲 别针 或 带 手套 的 手指 触摸 屏幕 ， 屏 幕 应 
该 不 会 有 任何 反应 。 人 体 特 别 适 合 存储 电荷 ， 大 家 在 寒冷 干燥 的 冬天 在 地 毯 上 走 过 后 再 去 摸 
金属 门 把 手 会 被 电 得 生 疼 就 是 一 个 明证 。 塑 料 、 木 制品 和 金属 工具 等 在 作为 电容 存储 电荷 方 
面 都 比 不 上 人 体 。 

触摸 屏 中 的 “导线 ”也 和 我 们 在 通常 的 电子 设备 中 使 用 的 铜 线 不 同 ， 铜 线 会 阻碍 屏幕 的 
透 光 性 。 取 而 代 之 的 是 极 细 (一 般 为 S0hm ) 的 、 透 明 上 且 可 导电 的 钢 锡 氧化 物 细 丝 ， 粘 合 在 薄 
的 玻璃 板 的 背面 ， 一 起 构成 了 电容 。 在 一 些 新 的 设计 中 ， 不 导电 的 玻璃 板 也 被 二 氧化 硅 (就 
是 沙子 ! ) 取代 ,通过 三 层 喷 涂 固定 在 基 座 上 。 无 论 哪 种 方式 ， 电 容 都 被 覆盖 在 其 上 面 的 玻 
璃 平板 保护 ， 以 免 弄 脏 和 擦 伤 。 这 块 玻璃 平板 也 就 是 被 触摸 的 表面 ， 它 越 薄 ， 其 灵敏 度 越 高 ， 
但 设备 也 越 容易 损坏 。 

触摸 屏 工作 时 ， 电 压 交替 地 加 载 在 水 平和 垂直 的 “导线 ”上 ， 从 导线 的 另 一 端 可 以 读 出 
被 处 于 交叉 点 上 的 电容 影响 后 的 电压 的 值 。 每 秒 钟 内 这 个 操作 都 被 重复 很 多 次 ， 被 触摸 的 点 
的 坐标 值 (x, y) 会 形成 数据 流 反馈 给 设备 驱动 器 ， 由 操作 系统 进一步 处 理 ， 如 判断 是 否 有 
点 击 、 捏 、 撑 或 滑动 等 动作 发 生 。 如 果 你 用 上 你 的 10 个 手指 ， 而 且 还 从 你 朋友 那 借 来 几 个 ， 
那么 操作 系统 可 能 会 忙 起 来 ， 但 多 点 触摸 硬件 依然 是 能 胜任 本 职工 作 的 。 

3. 平板 显示 器 

第 一 台 计 算 机 显示 器 使 用 的 是 阴极 射线 管 显 示 器 (Cathode Ray Tube，CRT )， 就 像 一 台 
老式 电视 机 。CRT 对 于 笔记 本 型 计算 机 来 说 就 显得 又 策 又 重 了 ， 所 以 笔记 本 型 计算 机 需要 一 
种 更 为 紧凑 的 显示 设备 。 平 板 显示 器 的 出 现 给 笔记 本 型 计算 机 显示 器 提供 了 必要 的 紧凑 显示 
形式 ， 而 且 能 耗 也 低 。 到 今天 平板 显示 器 在 大 小 和 能 耗 方面 的 优势 使 其 无 所 不 在 ， 基 本 淘汰 
了 CRT 显示 器 。 

目前 应 用 最 广泛 的 平板 显示 器 就 是 LCD (Liquid Crystal Display， 液 晶 ) 显示 器 。 它 在 
技术 上 十 分 复杂 ， 有 许多 变种 ， 发 展 也 相当 迅速 ， 所 以 我 们 对 它 的 介绍 十 分 简短 ， 而 且 会 高 
度 简化 。 

液晶 是 一 种 胶 状 的 有 机 分 子 ， 可 以 像 液体 一 样 流动 ， 但 又 有 像 水 晶 一 样 的 空间 结构 ， 是 
1888 年 由 一 位 奥地利 的 植物 学 家 Friedrich Reinitzer 发 现 的 ， 并 在 19 世纪 60 年 代 被 首次 用 来 
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做 显示 器 ( 如 计算 器 、 手 表 上 )。 当 液晶 的 所 有 分 子 都 朝 一 个 方向 排列 起 来 ， 它 的 光学 性 质 将 
取决 于 光 进 入 的 方向 和 光 的 偏振 性 。 使 用 特定 的 电场 ， 可 将 液晶 分 子 重 新 排列 ， 也 就 可 以 改 
变 其 光学 性 质 。 更 为 独特 的 是 ， 用 光照 射 液晶 ， 透 射 光 的 强度 可 以 用 电场 控制 。 液 晶 的 这 种 
属性 可 以 用 来 开发 平板 显示 器 。 

LCD 显示 器 的 屏幕 由 两 块 平行 的 玻璃 中 间 夹 着 一 层 密封 的 液晶 组 成 ， 两 块 玻璃 分 别 连 着 
透明 的 电极 。 后 面 那 块 玻璃 之 后 有 一 束 光 线 ( 自然 光 或 人 造 光 ) 照射 到 屏幕 上 ， 连 在 玻璃 上 
的 透明 电极 用 来 在 液晶 中 产生 电场 ， 用 不 同 的 电压 加 在 屏幕 不 同 的 位 置 ， 控 制 显示 的 图 形 。 
粘 在 前 后 两 块 玻璃 板 上 的 是 偏振 滤 光 镜 ， 因 为 液晶 显示 技术 要 求 使 用 偏振 光 。 图 2-33a 给 出 
T LCD 的 一 般 构 造 。 

虽然 目前 存在 多 种 LCD 显示 器 ， 但 我 们 还 是 以 TN (Twisted Nematic， 绞 合 向 列 型 ) 显 
示 器 为 例 来 作 介绍 。 这 种 类 型 的 显示 器 后 玻璃 板 上 有 许多 微小 的 水 平 槽 ， 前 玻璃 板 上 有 一 些 
微小 的 竖 直 模 ， 如 图 2-33b 所 示 。 没 有 电场 存在 时 ,液晶 分 子 将 顺 着 槽 排列 。 由 于 前 后 玻璃 
板 的 槽 的 互相 垂直 ， 液 晶 分 子 〈( 同时 导致 晶体 结构 ) 从 后 到 前 将 从 水 平 到 竖 直 变 化 。 





笔记 本 型 计算 机 
a) LCD 显 示 器 构造 b) 前 后 玻璃 板 上 的 槽 互相 垂直 
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显示 器 后 面 是 一 块 水 平 偏振 滤 光 镜 ， 只 人 允许 水 平 偏振 光 通 过 。 显 示 器 前 面 是 垂直 偏振 滤 
光 镜 ， 只 人 允许 垂直 偏振 光 通 过 。 如 果 中 间 没 有 液晶 ， 从 后 面 进 来 的 水 平 偏振 光 将 被 前 面 的 垂 
直 偏 振 滤 光 镜 完全 挡住 ， 使 屏幕 一 片 漆黑 。 

但 是 ， 有 处 于 中 间 的 液晶 分 子 进 行 引导 ， 光 线 将 转变 其 极 性 ， 完 全 成 为 垂直 偏振 光 。 这 
样 ， 如 果 没 有 电场 控制 ，LCD 显示 器 上 也 将 是 一 片 光 亮 。 通 过 在 选 定 的 位 置 加 上 一 定 的 电压 ， 
液晶 的 结构 将 被 破坏 ， 阻 碍 那个 位 置 的 光线 通过 ， 将 使 该 位 置 变 黑 。 

一 般 有 两 种 方式 提供 电压 。 在 ( 廉价 的 ) 被 动 矩阵 显示 器 上 ， 两 个 电极 上 都 是 平行 的 导 
线 。 例 如 ， 在 1920 x 1080 ( 全 高 清 视 频 的 分 辩 率 ) 的 显示 器 上 ， 后 面 的 电极 上 可 能 是 1920 
根 垂 直 的 导线 ， 前 面 是 1080 根 水 平 的 。 通 过 在 某 根 垂 直 导 线 上 加 上 电压 后 ， 再 在 某 根 水 平 导 
线 上 加 一 个 脉冲 ， 两 根 导线 交叉 点 的 电压 将 被 改变 ， 使 该 点 短暂 变 黑 。 像 素 ( 原 指 构成 图 片 
的 元 素 ) 是 构成 整个 图 像 的 一 个 彩色 点 。 在 下 个 点 和 下 下 个 点 上 重复 这 个 脉冲 ， 一 条 黑 线 就 
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画 出 来 了 。 正 常情 况 下 ， 整 个 屏幕 将 在 一 秒 钟 内 重 画 60 次 ,使 眼睛 觉得 屏幕 上 有 一 个 固定 的 
图 形 。 

另 一 种 广泛 使 用 的 方式 是 主动 矩阵 显示 器 。 它 相对 来 说 昂贵 一 些 ， 但 成 像 质量 也 要 好 一 
些 。 它 不 但 有 两 组 互相 垂直 的 导线 ， 在 其 中 的 一 个 电极 的 每 个 像素 位 置 上 还 有 一 个 微型 开关 。 
通过 打开 或 关闭 这 些 开 关 ， 可 以 在 屏幕 上 产生 牙 变 电压 ， 也 就 是 在 屏幕 上 产生 婚变 点 阵 。 这 
些微 型 开关 称 为 薄膜 晶体 管 (Thin Film Transistor，TFT )， 采 用 这 种 技术 的 平面 显示 器 也 常 称 
为 TFT 显示 器 。 目 前 ， 大 多 数 笔记 本 型 计算 机 以 及 许多 桌面 计算 机 配置 的 独立 的 平面 显示 器 
使 用 的 都 是 TFT 技术 。 

上 面 我 们 简单 描述 了 单 色 显示 器 的 工作 原理 。 可 以 说 彩色 显示 器 在 原理 上 和 单 色 显 示 器 
相同 ， 但 细节 上 要 复杂 得 多 。 彩 色 显 示 器 中 在 屏幕 上 的 每 个 像素 用 光 过 滤器 将 白光 分 解 成 红 、 
绿 、 蓝 三 原色 ， 并 使 它们 能 独立 显示 出 来 ， 通 过 它们 (三 原色 ) 的 线性 组 合 ， 就 可 以 创造 出 
屏幕 上 的 万 紫 千 红 的 各 种 颜色 。 

新 的 屏幕 技术 依然 层出不穷 。 其 中 最 有 前 景 的 一 种 应 该 是 有 机 发 光 二 极 管 (Organic Light 
Emitting Diode, OLED )。 它 由 一 层 充 电 的 有 机 分 子 薄膜 ， 像 三 明治 芯 一 样 夹 在 两 个 电极 中 间 。 
电压 升 高 可 引起 分 子 运动 加 快 并 转化 到 高 能 状态 ， 当 分 子 活动 恢复 到 正常 状态 时 ， 就 会 发 出 
光 。 更 多 的 细节 超出 了 本 书 的 范围 ( 也 超出 了 作者 们 的 知识 范围 )。 

4. 显示 存储 器 

大 多 数 显示 器 每 秒 钟 都 必须 刷新 60 ~ 100 次 ， 以 获得 稳定 的 显示 质量 。 这 些 用 来 刷新 的 
数据 被 存放 在 显示 控制 卡 上 的 专用 存储 器 一 一 显示 存储 器 (video RAM) 中 。 显 示 存 储 器 中 
存放 有 代表 一 屏 或 多 屏 图 像 的 位 图 数据 。 例 如 ， 一 个 有 1920 x 1080 个 像素 的 屏幕 ， 显 存 中 应 
存放 1920 x 1080 个 数值 ， 每 个 数值 对 应 一 个 像素 。 实 际 上 ， 显 存 中 存放 着 好 几 个 这 样 的 位 图 
数据 ， 以 实现 不 同 屏幕 图 像 的 快速 切换 。 

普通 显示 器 中 ， 每 个 像素 被 表示 为 3 字 节 的 RGB 值 ， 每 个 字 节 分 别 用 来 表示 该 像素 点 的 
红 、 绿 、 蓝 颜色 的 亮度 ( 高端 显 示 器 用 10 个 或 更 多 字 节 表示 一 种 颜色 )。 根 据 物理 规律 ， 任 
何 颜色 都 可 以 通过 红 、 绿 、 蓝 三 种 光 进 行 线性 组 合 获得 。 

对 于 1920 x 1080 分 辨 率 的 显示 器 来 说 ， 如 果 每 个 像素 点 用 3 字 节 表示 ， 则 其 显存 需要 接 
近 6.2MB 的 容量 来 存放 图 像 信 息 ， 同 时 ， 对 图 像 的 任何 动作 都 需要 花费 CPU 相当 多 的 时 间 。 
为 此 ,一些 计算 机 做 了 一 些 折衷 ， 用 1 个 8 位 的 数 来 表示 显示 的 颜色 。 用 这 个 8 位 的 数 作为 
索引 ， 去 查 一 个 称 为 调 色 板 的 硬件 表 ， 该 表 有 256 项 ， 每 项 中 存放 一 个 24 位 的 RGB 值 。 这 
种 设计 也 称 为 索引 色 ， 它 可 将 显存 需要 的 空间 降低 2/3， 带 来 的 后 果 是 每 次 显示 只 能 有 不 超过 
256 种 颜色 。 一 般 情况 下 ， 屏 幕 上 每 个 窗口 有 自己 的 位 图 ， 但 由 于 只 有 一 个 硬件 调 色 板 ， 所 
以 当 屏幕 上 有 多 个 窗口 时 ， 通 常 只 有 当前 窗口 能 正确 着 色 。 具 有 245 项 的 调 色 板 也 已 经 使 用 
了 ， 但 获得 的 收益 仅 有 1/3。 

位 图 显示 器 对 带宽 要 求 也 很 高 。 为 在 1920 x 1080 分 辩 率 的 显示 器 中 显示 全 屏幕 、 全 彩色 
的 多 媒体 图 像 ， 就 要 求 在 显示 一 帧 图 像 的 时 间 内 ， 复 制 6.2MB 的 数据 到 显示 存储 器 中 。 对 全 
动画 的 图 像 ， 每 秒 至 少 要 显示 25 帧 ， 总 的 数据 传输 率 要 达到 155MB/s。 这 种 带宽 要 求 已 经 超 
过 了 PCI 总 线 的 传输 能 力 ( 132MB/s ), 但 PCIe 还 是 能 应 付 自 如 。 


2.4.3 ”鼠标 
随 着 时 间 的 推移 ， 越 来 越 多 对 计算 机 技术 不 太 了 解 的 用 户 开 始 使 用 计算 机 。ENIAC 时 代 
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的 计算 机 只 供 制 造 者 本 身 使 用 。20 世纪 50 年 代 ， 计 算 机 用 户 也 仅仅 是 那些 技术 精湛 的 专业 
程序 员 。 但 现在 ， 计 算 机 的 用 户 已 经 发 展 到 那些 需要 计算 机 完成 一 定 工作 ， 却 对 计算 机 工作 
原理 知之 甚 少 (甚至 是 刚 想 了 解 )， 也 不 知道 如 何 编程 的 人 。 

过 去 ， 大 多 数 计算 机 提供 的 只 是 命令 行 接口 ， 供 用 户 输入 命令 。 由 于 并 非 计 算 机 专家 的 
那些 用 户 认 为 命令 行 接口 这 种 界面 不 太 友 好 ， 所 以 许多 计算 机 公司 ， 如 果 不 是 对 用 户 怀 有 敌 
Bis, 开发 出 了 供用 户 点 击 的 界面 ， 比 如 Macintosh 和 Windows。 使 用 这 种 界面 要 求 有 在 
屏幕 上 点 击 的 设备 ， 最 常用 的 点 击 设备 就 是 鼠标 了 。 

鼠标 是 放 在 键盘 旁边 桌面 上 的 一 个 小 塑料 盒 。 当 用 户 将 它 在 桌面 上 移动 时 ， 屏 幕 上 的 一 
个 小 箭头 也 跟着 移动 ， 使 用 户 可 以 点 击 屏幕 上 的 点 击 项 。 鼠 标 有 单 键 、 两 键 和 三 键 三 种 ， 供 
用 户 选 择 菜 单项 。 对 鼠标 上 到 底 应 该 有 多 少 个 键 一 直 是 争吵 不 休 。 喜 欢 简 单 的 用 户 希 望 只 有 
一 个 键 ( 如 果 那 样 的 话 ， 那 就 不 会 按 错 键 了 ), 但 经 验 丰 富 的 用 户 就 喜欢 多 键 鼠 标 带 来 的 许多 
方便 。 

现在 有 三 种 类 型 的 鼠标 : 机 械 式 、 光 学 式 和 光电 式 。 机 械 式 鼠 标底 部 有 两 个 轴 互 相 垂直 
的 橡胶 轮 。 当 鼠标 向 与 其 主轴 平行 的 方向 移动 时 ， 一 个 轮子 会 转动 ; 当 向 与 其 主轴 垂直 的 方 
向 移动 时 ， 另 一 个 轮子 转动 。 每 个 轮子 各 驱动 一 个 可 变 电 阻 《电位 器 )。 通 过 测量 电阻 值 的 变 
化 ， 就 可 以 得 到 鼠标 在 每 个 方向 上 的 位 移 。 近 几 年 来 ， 鼠 标底 部 的 轮子 逐渐 被 少许 突出 的 小 
球 所 取代 ， 如 图 2-34 所 示 。 


受 鼠 标 控制 的 指针 





图 2-34 用 来 点 击 菜单 项 的 鼠标 


第 二 种 鼠标 是 光学 式 鼠 标 ， 它 的 底部 没有 轮子 ， 也 没有 球 ， 而 是 由 一 个 发 光 二 极 管 
( Light Emitting Diode, LED ) 和 一 个 光 检 测 器 代替。 早期 的 光学 鼠标 下 面 必须 是 一 个 特制 的 
逆 料 垫 ， 塑 料 垫 上 是 距离 很 近 的 线条 用 来 感知 鼠标 越过 了 线条 ， 并 获得 鼠标 移动 了 多 远 。 现 
在 的 光电 鼠标 有 一 个 LED 光源 用 来 照 亮 鼠标 下 面 的 表面 ， 然 后 用 1 个 摄像 头 来 拍摄 1 个 小 范 
围 的 图 片 (一 般 为 18 x 18 像素 )， 拍 摄 速度 最 高 达 1000 次 / 秒 。 通 过 对 连续 的 图 片 进 行 比较 
来 获得 鼠标 移动 的 距离 。 有 些 光电 鼠标 改 用 激光 来 代替 LED 照明 ， 效 果 更 为 精确 ， 但 成 本 也 
更 高 。 

第 三 种 鼠标 是 光电 式 鼠 标 ， 和 新 式 的 机 械 式 鼠 标 类 似 ， 它 的 底部 是 一 个 可 以 互 为 垂直 的 
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两 个 轴 旋 转 的 小 球 。 两 个 轴 上 连 有 译 码 器 ， 上 面 有 光线 可 以 通过 的 小 裂 颖 。 鼠 标 移动 时 ， 带 
动 轴 旋 转 ， 当 裂缝 正好 位 于 LED 和 检测 器 之 间 时 ， 检 测 器 可 以 感知 到 一 个 光 脉 冲 。 脉 冲 数 和 
鼠标 的 位 移 成 正比 ， 对 脉冲 计数 就 可 以 得 到 鼠标 的 位 移 。 

尽管 有 多 种 方式 来 运用 鼠标 ， 通 常 的 解决 方法 是 在 鼠标 移动 一 个 最 小 位 移 单 位 〈 比如 
0.01 英寸 )， 有 时 也 叫 1 个 mickey 后 ， 向 计算 机 发 送 一 个 3 字 节 的 串 。 一 般 情 况 下 ， 这 个 串 
是 通过 串 行 线 进 入 计算 机 ， 一 次 传送 一 位 。 第 一 个 字 节 是 一 个 有 符号 整数 ， 表 示 鼠 标 在 上 次 
发 送 数 据 之 后 于 x 方 向 上 的 移动 量 ， 第 二 个 字 节 与 其 类 似 ， 表 示 的 是 ?方向 的 位 移 量 。 第 三 
个 字 节 描述 鼠标 按键 当前 的 状态 。 有 时 ， 两 个 坐标 方向 的 位 移 量 需 要 各 用 2 个 字 节 表示 。 

当 这 些 字 节 发 送 到 计算 机 中 后 ， 计 算 机 的 底层 软件 接收 这 些 信息 ， 并 将 相对 位 移 量 转换 
成 鼠标 的 绝对 位 置 ， 然 后 在 屏幕 上 对 应 位 置 显 示 一 个 箭头 来 表示 鼠标 的 当前 位 置 。 当 箭头 指 
向 正确 的 菜单 项 时 ， 如 果 用 户 按 下 鼠标 上 的 键 ， 计 算 机 就 可 以 从 箭头 在 屏幕 上 的 位 置 计算 出 
哪个 菜单 项 已 被 用 户 选择 。 


2.4.4 游戏 控制 器 


一 般 来 说 视频 游戏 通过 众多 的 IO 命令 来 和 用 户 进 行 交 互 ， 为 此 ， 游 戏 机 市 场 上 出 现 了 
许多 专门 为 此 开发 的 输入 设备 。 本 节 我 们 讨论 两 种 新 近 推 出 的 视频 游戏 控制 器 ， 任 天 党 的 
Wiimote 和 微软 的 Kinect。 

1. Wiimote 控制 器 

和 任天堂 的 Wii 游 戏 机 一 起 于 2006 EHEH, Wiimote 控制 器 由 传统 的 游戏 手柄 加 上 双 
动作 感知 能 力 构 成 。 所 有 Wiimote 上 的 互动 通过 蓝牙 被 实时 发 送 给 游戏 机 。 动 作 传感器 使 
Wiimote 可 以 感知 本 身 在 三 维 空间 中 的 移动 ， 另 外 ， 当 对 准 一 台电 视 机 时 ， 它 还 能 提供 细 粒 
度 的 瞄准 能 力 。 

图 2-35 给 出 了 Wiimote 是 实现 动作 感知 功能 的 原理 。 追 踪 Wiimote 在 三 维 空间 中 的 移动 
是 由 其 内 部 的 3- 轴 加 速 器 完成 的 ， 该 设备 包含 3 个 小 滑 块 ， 每 个 可 分 别 沿 x, y 和 z 方 向 ( 相 
对 于 加 速 器 芯片 ) 移动 ， 移 动 的 距离 和 其 对 应 坐标 轴 上 的 加 速度 成 比例 ， 并 能 带动 滑 块 上 的 
电容 ， 其 另 一 极 连接 在 固定 的 金属 片上 。 通 过 测量 3 个 电容 的 变化 ， 就 能 感知 三 个 轴 向 的 加 
速度 。 采 用 这 种 技术 和 一 些 经 典 的 算法 ，Wii 游戏 机 可 追踪 Wiimote 在 空间 中 的 运动 。 当 你 挥 
动 Wiimote 击 打 一 个 虚拟 的 网 球 时 ，Wiimote 击 球 的 动作 可 以 被 追踪 到 ; 而 且 如 果 你 最 终 翻动 
手腕 击 打 一 个 上 旋 球 时 ，Wiimote 中 的 加 速 器 也 能 感应 到 这 个 动作 。 

对 于 Wiimote 在 三 维 空间 中 的 移动 ,加 速 器 可 以 完美 地 追踪 ， 但 是 ， 它 无 法 提供 控制 一 
个 电视 屏幕 上 的 指针 所 必需 的 细 粒 度 的 动作 感应 能 力 。 加 速 器 需要 容忍 在 对 加 速度 测量 过 程 
中 无 法 避免 的 细微 误差 ， 随 着 时 间 的 增加 ， 误 差 也 在 不 断 累 积 ， 造 成 无 法 精确 得 到 Wiimote 
的 准确 位 置 (仅仅 基于 加 速 器 的 测量 )。 

为 了 提供 细 粒 度 动作 感应 能 力 ，Wiimote 利用 了 一 种 智能 计算 机 视觉 技术 。 它 在 电视 机 
顶 上 安装 了 一 个 “感应 条 ”， 包 含有 一 些 等 距离 间隔 的 LED 灯 。 而 在 Wiimote 中 装 有 一 个 镜 
头 ， 用 它 对 准 感应 条 时 可 以 得 到 Wiimote 相对 于 电视 机 的 距离 和 方向 。 由 于 感应 条 中 的 LED 
灯 是 等 宽 放置 的 ， 由 Wiimote 观测 到 的 灯 的 距离 和 Wiimote 到 电视 机 的 距离 是 成 比例 的 。 在 
Wiimote 视野 中 的 感应 条 的 位 置 指示 了 Wiimote 所 瞄准 的 电视 机 上 的 点 。 不 断 地 感知 这 个 方 
向 ， 就 有 可 能 得 到 细 粒 度 的 瞄准 能 力 ， 而 不 受到 加 速 器 位 置 测量 错误 的 干扰 。 
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图 2-35 Wiimote 视频 游戏 控制 器 中 的 动作 传感器 


2. Kinect 控制 器 

微软 的 Kinect 将 游戏 控制 器 的 计算 机 视觉 处 理 能 力 提 高 到 了 全 新 的 层次 ， 仅 仅 使 用 计算 
机 视觉 技术 来 完成 用 户 和 游戏 机 的 交互 。 游 戏 设 计 者 事先 把 你 的 手 、 胎 膊 以 及 其 他 任何 他 能 
想到 的 你 可 能 使 用 的 动作 设计 在 游戏 中 ， 这 样 ，Kinect 就 可 以 通过 感应 用 户 在 房间 中 的 位 置 ， 
以 及 他 们 身体 的 朝向 和 动作 来 控制 游戏 机 做 出 相应 的 处 理 。 

Kinect 的 动作 感知 能 力 是 通过 景深 摄像 头 和 视频 摄像 头 结合 而 获得 的 。 景 深 摄 像 头 先 发 
出 二 维 阵 列 的 红外 激光 ， 然 后 用 红外 摄像 头 捕捉 其 反射 光 ， 利 用 “结构 光 ” 计 算 机 视觉 技术 ， 
根据 红外 光线 被 物体 表面 反射 后 的 分 散 情况 ， 计 算出 物体 在 Kinect 视野 中 的 距离 。 

景 次 信息 和 由 视频 摄像 头 获取 的 纹理 一 起 ， 生 成 了 纹理 景深 图 , 经 计算 机 视觉 算法 处 理 
后 可 以 定位 用 户 在 房间 中 的 位 置 (甚至 可 以 识别 人 脸 ) 方向 并 得 到 他 们 肢体 的 动作 。 完 成 这 
些 过 程 后 这 些 信息 ( 在 房间 中 有 关 人 的 信息 ) 被 发 给 游戏 机 并 据 此 来 控制 视频 游戏 。 


2.4.5 打印 机 


准备 好 一 份 文件 或 从 万 维 网 上 下 载 一 个 网 页 后 ， 用 户 经 常 希望 将 它们 打印 输出 ， 故 许多 
计算 机 都 能 连接 打印 机 。 本 节 我 们 介绍 几 种 常用 的 打印 机 。 
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1. 激光 打印 机 
自从 15 世纪 Johann Gutenberg 发 明 活 字 印 刷 设 备 以 来 ， 最 激动 人 心 的 进步 也 许 就 是 激光 
打印 机 了 。 这 种 设备 集 高 质量 打印 效果 、 灵 巧 、 高 速 和 中 等 的 价格 于 一 身 ， 技 术 上 几乎 和 复印 
机 完全 一 样 。 事 实 上 ， 许 多 公司 出 品 既 能 打 122 
印 ， 又 能 复印 (有 时 还 能 收发 传真 ) 的 设备 。 激光 旋转 的 八 面 镜 
GES 


图 2-36 是 激光 打印 机 的 原理 图 ， 其 核 
心 部 件 是 可 精确 旋转 的 硒鼓 〈( 在 某 些 高 档 打 
印 机 中 是 一 条 皮带 )。 开 始 打印 一 页 之 前 ， 
硒鼓 被 加 上 1000 伏 左 右 的 电压 ， 并 覆盖 上 
一 层 感光 材料 。 然 后 ， 一 束 激光 经 一 面 八 角 
镜 反 射 后 ， 沿 鼓 的 横向 扫 过 硒鼓 。 调 整 激光 
束 的 照射 ， 可 在 硒鼓 表面 生成 亮点 和 黑 点 ， 
被 激光 照射 过 的 点 将 失去 电压 。 

准备 好 一 条 打印 线 后 ， 磁 鼓 旋转 一 个 角 
度 ， 开 始 准 备 下 一 条 打印 线 。 最 后 ， 第 一 条 
打印 线 上 的 点 阵 遇 到 了 碳 粉 盒 ， 里 面 放 着 可 sae 打印 好 的 文件 
被 静电 吸附 的 碳 粉 。 碳 粉 被 硒鼓 上 还 保留 有 图 2-36 ”激光 打印 机 的 工作 原理 
静电 的 点 吸附 ,在 其 表面 “显现 ”出 要 打印 
的 结果 。 不 久 ， 吸 附 了 碳 粉 的 硒鼓 遇 到 了 打印 纸 ， 并 将 吸附 的 碳 粉 传 给 打印 纸 。 打 印 纸 通过 高 
温 滚 简 的 烘 烤 ， 碳 粉 被 永久 熔化 在 纸 面 上 ， 形 成 最 后 的 打印 结果 。 然 后 ， 硒 鼓 被 放电 ， 上 面 剩 
余 的 碳 粉 被 清扫 干净 ， 以 备 打 印 下 一 页 时 重复 上 述 过 程 。 

这 个 过 程 是 极其 复杂 的 ， 综 合 了 物理 学 、 化 学 、 机 械 工程 和 光学 工程 等 多 门 学科 ， 这 里 
不 再 详细 叙述 。 然 而 ， 还 是 有 多 家 供应 商 能 提供 完整 的 核心 硬件 ， 也 称 为 打印 引 警 。 激 光 打 
印 机 厂商 将 打印 引 警 配 上 自己 的 逻辑 电路 和 驱动 软件 ， 才 形成 一 台 完 整 的 打印 机 。 打 印 机 的 
逻辑 电路 由 一 片 快 速 的 能 人 式 CPU 和 数 兆 内 存 组 成 。 内 存 用 来 存储 整 页 的 点 阵 和 各 种 打印 字 
体 ， 有 些 字体 固化 在 打印 机 中 ， 有 的 是 使 用 过 程 中 通过 下 载 装 和 人 的。 多数 激光 打印 机 可 以 接 23] 
收 描述 打印 页 面 的 命令 ( 而 点 阵 打印 机 只 能 接收 由 主机 的 CPU 准备 好 的 点 阵 )， 这 些 命令 用 
类 似 于 HP 的 PCL 或 Adobe 的 PostScript (或 PDF ) 语言 给 出 ， 尽 管 是 专门 为 打印 机 而 设计 ， 
但 确实 是 一 种 完整 的 语言 。 

600dpi 或 以 上 的 激光 打印 机 能 打印 出 理想 的 黑白 图 像 ， 但 技术 上 与 人 们 首先 想象 的 有 点 
不 一 样 。 例 如 ， 想 象 一 下 在 一 台 600dpi 的 打印 机 上 打印 一 张 以 600dpi 分 辩 率 扫描 的 黑白 图 
像 。 扫 描 出 的 图 像 中 每 英寸 有 600 x 600 个 像素 ， 每 个 像素 还 有 一 个 从 0( 白 色 ) ~ 255( 黑色 ) 
的 灰 度 值 。 激 光 打 印 机 当然 也 能 打印 出 600dpi 的 像素 ， Se NE ee See 
要 么 就 是 白色 ( 没有 碳 粉 )， 灰 度 就 体现 不 出 来 了 。 

这 个 问题 的 通常 的 解决 办 法 是 采用 过 渡 色 技术 ， 给 图 像 加 上 灰 度 ， 和 平常 印 制 商业 广告 
时 的 办 法 一 样 。 具 体 来 说 ， 就 是 将 图 像 的 点 分 解 成 过 渡 色 的 元 素 ， 每 个 元 素 一 般 是 6x6 个 
像素 组 成 。 这 样 ， 每 个 元 素 就 有 了 0 ~ 36 这 37 级 不 同 的 黑 度 ， 在 人 眼看 来 ， 像 素 多 的 元 素 ” 
当然 比 像素 少 的 元 素 要 黑 一 些 。 将 0 ~ 255 的 灰 度 值 分 解 成 这 0 ~ 36 级 ， 即 灰 度 值 为 0 ~ 6 
的 分 到 第 0 级 ,7 ~ 13 分 解 到 第 1 级 ， 依 次 类 推 (最 后 的 第 36 级 代表 的 灰 度 值 少 一 些 ， 因 
为 256 不 能 被 37 整除 )。 然 后 ， 不管 遇 到 处 于 第 0 级 的 哪个 灰 度 值 ， 其 过 渡 色 元 素 都 是 在 纸 
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面 上 留 下 一 片 空白 ， 如 图 2-37a 所 示 。 遇 到 第 1 级 的 值 时 在 纸 面 上 输出 一 个 黑色 的 像素 。 第 2 
级 的 话 就 输出 两 个 像素 ， 如 图 2-37b 所 示 。 图 2-37c ~f 分 别 给 出 了 其 他 几 个 级 别 的 值 对 应 的 
输出 结果 。 然 而 ， 用 600dpi 分 辨 率 扫 描 的 图 形 如 果 这 样 输 出 ， 其 实际 分 辨 率 将 降低 到 100 元 
素 /英寸 ， 这 就 是 过 渡 色 屏幕 级 别 ， 通 常用 Ipi ( 线 数 /英寸 ，lines per inches) 表示 。 


o.oo 


a) 0~6 b) 14~20 c) 28~34 d) 56~62 e) 105~1ll Ð 161 ~ 167 
图 2-37 不 同 灰 度 级 别 的 过 渡 色 点 





2. 彩色 打印 机 

尽管 大 多 数 激 光 打 印 机 都 是 单 色 的 ， 但 彩色 激光 打印 机 的 使 用 也 逐渐 开始 普及 。 因 此 ， 
在 这 里 介绍 一 些 彩 色 打 印 的 技术 (也 适用 于 喷 墨 及 其 他 打印 机 ) 应 该 是 有 用 的 。 正 如 你 所 想 ， 
彩色 打印 并 不 是 那么 简单 。 根 据 观测 办 法 的 不 同 ， 彩 色 图 像 可 分 成 两 类 : 发 射 光 图 像 和 反射 
光 图 像 。 发 射 光 图 像 ， 如 监视 器 生成 的 图 像 ， 是 将 三 种 正 原色 一 一 红 、 绿 、 蓝 线性 和 至 加 后 组 
合 而 成 的 。 ` 

相反 ， 反 射 光 图 像 ， 如 彩色 照片 和 画报 上 的 图 片 ， 是 将 自然 光 中 特定 波长 的 光 吸 收 ， 并 
反射 剩 下 的 光 而 形成 的 ， 即 将 三 种 负 原色 一 一 青 (所 有 红 光 被 吸收 )、 品 红 ( 所 有 绿 光 被 吸 
收 )、 黄 (所 有 蓝光 被 吸收 ) 线性 又 加 后 组 合 而 成 。 理 论 上 ， 所 有 的 颜色 都 可 以 通过 将 青 、 黄 
和 品 红 三 色 的 墨水 混合 而 生成 ， 但 现实 中 ， 要 生成 一 种 足够 纯 的 墨水 来 吸收 所 有 的 光线 ， 即 
生成 黑色 十 分 困难 。 因 此 ， 几 乎 所 有 彩色 打印 机 都 使 用 四 种 颜色 的 墨水 一 一 青 〈cyan )、 黄 
(yellow )、 品 红 (magenta) 和 黑色 (black )。 基 于 负 原 色 的 彩色 打印 机 称 为 CYMK 打印 机 。 
“K” 在 这 里 代表 “blacK”， 但 也 可 以 理解 为 “Key”， 表 示 主 版 ， 这 样 就 和 传统 的 四 色 印 刷 
制版 体系 统一 起 来 了 。 相 反 ， 采 用 发 射 光 生成 彩色 的 监视 器 用 的 是 RGB 三 种 加 原色 ， 称 为 
RGB 系统 。 

我 们 把 显示 器 或 打印 机 能 生成 的 全 部 颜色 叫做 它 的 色 移 (gamnut )。 没 有 一 种 设备 的 色 移 
能 和 现实 世界 相 比 ， 因 为 它们 最 多 能 提供 256 级 亮度 ， 也 就 是 16 777 216 种 不 同 的 颜色 。 技 
术 上 的 缺陷 使 颜色 的 种 类 不 能 更 多 ， 但 就 是 这 有 限 的 颜色 也 不 是 均匀 分 布 在 色谱 图 上 。 而 且 ， 
视觉 的 形成 ， 也 就 是 光线 如 何 作用 于 视网膜 内 的 棒状 和 圆锥 状 感光 细胞 方面 还 有 许多 工作 要 
做 ， 并 且 不 仅仅 是 物理 光线 本 身 。 

据 此 ， 要 将 一 幅 在 屏幕 上 看 起 来 不 错 的 图 像 一 模 一 样 地 输出 到 打印 机 上 还 存在 不 少 的 间 
fl, ERA: 

1) 彩色 监视 器 使 用 的 是 发 射 光 ， 而 彩色 打印 机 只 能 用 反射 光 。 

2) CRT 的 每 种 颜色 可 以 有 256 种 亮度 ， 而 彩色 打印 机 只 能 用 过 渡 色 。 

3) 监视 器 的 背景 为 黑色 ， 但 打印 纸 的 颜色 为 白色 。 

4) 监视 器 用 的 RGB 和 打印 机 用 的 CMYK 的 色 移 不 同 。 

所 以 ， 要 打印 出 可 以 和 现实 世界 (或 只 是 和 显示 器 上 的 图 像 ) 相 比 拟 的 彩色 图 像 ， 就 要 
求 有 高 精确 度 的 硬件 设备 、 高 度 复杂 的 构造 或 者 使 用 ICC ( 国际 色彩 联盟 ，International Color 
Consortium ) 配置 文件 的 软件 ， 以 及 具备 大 量 专业 知识 的 用 户 。 
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3. A AAT ÉP HL 

喷 黑 打印 机 非常 适合 低 成 本 的 家 用 打印 。 它 使 用 可 移动 的 打印 头 ， 上 面 带 有 墨水 盒 ， 通 
过 皮带 带动 水 平地 扫 过 纸张 表面 ， 墨 滴 从 底部 的 小 喷嘴 喷 出 完成 打印 功能 。 小 墨 滴 的 体积 大 
约 为 1 皮 升 ， 也 就 是 说 ，1 亿 个 小 墨 滴 可 以 构成 我 们 平常 说 的 1 滴水 。 

喷 墨 打印 机 可 以 分 为 两 类 : EER (EPSON 采用 ) 和 热 敏 式 (Canon、HP #il Lexmark 
采用 )。 压 电 式 打印 机 的 墨盒 喷嘴 附近 有 1 个 小 的 特殊 的 压 电 陶瓷 ， 当 对 它 加 上 电压 时 ， 压 电 
陶瓷 会 发 生 微小 的 形变 ， 将 墨 滴 从 喷嘴 中 挤 出 。 电 压 越 高 ， 挤 出 的 墨 滴 越 大 ， 这 样 ， 驱 动 程 
序 可 以 控制 墨 滴 的 大 小 。 

热 敏 式 喷 墨 打印 机 (也 称 为 热 泡 式 打印 机 ) 在 每 个 喷嘴 里 安装 1 个 很 小 的 电阻 。 当 通 上 
电流 时 ， 电 阻 丝 快 速 加 热 其 周围 的 墨汁 ， 使 其 气 化 形成 一 个 气泡 。 气 泡 比 形成 它 的 墨 计 的 体 
积 要 大 ， 在 喷嘴 内 产生 压力 ， 使 它 从 唯一 的 出 日 也 就 是 喷嘴 中 喷 出 到 纸 面 上 。 喷 嘴 冷 却 下 来 ， 
产生 的 真空 使 它 从 墨盒 中 吸入 下 一 滴 兴 汁 。 打 印 机 的 速度 由 此 被 重复 加 热 / 冷却 的 周期 所 限 
制 ， 而 且 ， 墨 滴 的 大 小 总 是 一 样 的 ， 不 过 比 起 压 电 式 的 来 说 要 小 。 

喷 墨 打印 机 一 般 的 分 辨 率 达 1200dpi 以 上 ， 高 端的 已 经 达到 了 4800dpi。 它 们 价格 低廉 、 
无 噪音 、 打 印 效 果 好 ， 尽 管 打印 速度 相对 慢 一 些 ， 还 要 使 用 昂贵 的 墨盒 。 在 专门 的 铜版 相 纸 
上 ， 最 好 的 高 端 喷 墨 打印 机 可 以 打印 出 专业 的 高 分 辨 率 相片 ， 就 算是 幅面 达到 8 x 10 英寸 大 
小 ,效果 也 可 和 传统 的 冲印 相片 相 媲 美 。 

要 得 到 最 好 的 打印 效果 ， 就 要 用 特制 的 墨水 和 打印 纸 。 目 前 有 两 类 墨水 ， 一 类 是 染料 墨 
水 ， 是 将 染料 溶解 在 液体 中 制造 的 ， 它 的 颜色 鲜艳 ,不 易 阻 塞 ， 但 主要 缺点 是 暴露 在 强 光 下 ， 
如 在 阳光 下 时 容易 褪色 。 另 一 类 是 色素 墨水 ， 它 是 将 固体 小 颗粒 的 色素 巧 浮 在 液体 中 制 成 ， 
待 溶剂 在 纸 面 上 蒸发 后 ， 色 素 颗 粒 留 在 纸 面 上 形成 彩色 。 这 种 墨水 不 会 随 着 时 间 的 推移 而 褪 
色 ， 但 不 如 染料 墨水 鲜艳 ， 而 且 色 素 颗粒 容易 堵塞 打印 头 中 的 小 喷 管 ， 需 要 定期 进行 清洗 。 
打印 彩色 照片 需要 使 用 铜版 纸 或 光泽 纸 ， 这 两 类 特制 的 纸 可 以 不 使 墨 滴 发 泗 。 

4. 特制 打印 机 

当 激 光 打 印 机 和 喷 墨 打印 机 占据 了 家 用 和 商用 打印 机 市 场 时 ， 在 一 些 对 打印 属性 ， 如 色 
彩 质量 、 价 格 等 有 特殊 要 求 的 场合 ， 会 使 用 一 些 其 他 类 型 的 打印 机 。 

固体 喷 墨 打印 机 是 喷 墨 打印 机 的 一 个 变种 。 它 将 4 种 特制 的 蜡 状 油墨 混合 在 一 起 后 ， 高 
温 熔 化 成 液体 油墨 ， 存 放 在 打印 头 中 。 为 等 待 墨 的 熔化 ， 这 种 打印 机 的 启动 时 间 可 长 达 10 分 
钟 之 久 。 打 印 时 ， 将 热 墨 喷 到 纸 面 上 ， 再 用 滚 简 在 两 边 压 ， 使 油墨 重新 固化 并 凝结 在 纸 上 。 在 
某 种 程度 上 ， 它 结合 了 喷 墨 打印 机 喷 墨 和 激光 打印 机 将 磨 粉 熔化 并 用 滚 简 压 在 纸 面 上 的 思路 。 

另外 一 种 是 热 蜡 转 印 打印 机 。 它 将 CYMK4 种 颜色 的 石蜡 做 成 页 面 大 小 的 4 段 ， 纸 面 在 
石蜡 下 移动 时 ， 许 多 的 热源 对 其 进行 加 热 ， 将 相关 像素 点 熔化 ， 再 经 过 压制 ， 将 石蜡 固定 在 
纸 面 上 ， 构 成 CMYK 系统 的 像素 。 石 蜡 打 印 机 曾经 是 最 主要 的 彩色 打印 技术 ， 但 现在 已 被 其 
他 的 廉价 打印 机 所 取代 。 

还 有 一 种 彩色 打印 机 是 染料 升华 打印 机 。 尽 管 其 名 称 有 点 弗 洛 伊 德 式 的 弦 外 之 音 ; 但 升 
华 是 物质 直接 从 固态 不 通过 液态 变 到 气态 的 科学 名 称 。 干冰 ( 固态 二 氧化 碳 ) 是 一 种 大 家 熟 
知 的 具有 升华 性 质 的 物质 。 在 染料 升华 打印 机 中 ， 墨 盒 里 放 有 CYMK4 种 染料 ， 打 印 头 可 以 
加 热 ， 且 热度 可 以 由 程序 控制 。 染 料 通过 打印 头 时 ， 马 上 被 气 化 ， 并 被 旁边 的 特制 纸 吸收 。 
打印 头 中 的 每 个 热源 可 以 产生 256 种 不 同 的 温度 ， 温 度 越 高 ， 蒸 发 出 的 染料 越 多 ， 颜 色 的 亮 
度 越 高 。 和 所 有 其 他 种 类 的 打印 机 不 同 ， 染 料 升华 打印 机 能 给 每 个 像素 打出 几乎 相近 的 颜色 ， 
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所 以 可 不 用 过 度 色 技 术 。 小 型 快照 打印 机 经 常 使 用 染料 升华 技术 在 特制 的 (也 是 昂贵 的 ) 相 
纸 上 打 印 色彩 逼真 的 彩色 相片 。 

最 后 ， 我 们 谈 谈 热 敏 打印 机 。 它 的 小 打印 头 中 安装 有 一 些 很 小 的 可 加 热 的 针 ， 当 电流 通 
过 其 中 时 ， 针 很 快 被 加 热 。 当 特制 的 热 敏 纸 从 打印 头 前 拉 过 时 ， 加 热 过 的 针头 的 热量 在 打印 
纸 上 形 成 一 个 点 。 事 实 上 ， 热 敏 打 印 机 和 以 前 的 针 式 打印 机 有 点 像 ， 通 过 打印 针 击 打 打 印 色 
带 ， 往 色 带 后 面 的 打印 纸 上 印 上 一 个 点 。 热 敏 打印 机 在 商场 的 收据 打印 、ATM 机 和 自动 加 油 
站 等 场合 得 到 广泛 的 应 用 。 


2.4.6 ”电信 设备 


今天 ， 大 多 数 计算 机 已 经 连接 到 计算 机 网 络 ， 通常 是 互联 网 当中 。 计 算 机 要 访问 互联 网 ， 
需要 有 特别 的 设备 。 本 节 我 们 讨论 这 些 设备 的 基本 工作 原理 。 

1. 调制 解 调 器 

随 着 近年 来 计算 机 用 途 的 不 断 扩展 ,计算机 之 间 的 通信 越 来 越 普遍 。 例 如 ,许多 人 都 在 
家 中 有 个 人 计算 机 ， 它 们 常 被 用 来 与 办 公 室 的 计算 机 通信 ， 或 与 互联 网 网 络 服务 商 ( Internet 
Service Provider, ISP) 通信 ， 或 者 是 与 家 庭 银 行 系统 进行 通信 。 很 多 情况 下 ， 这 些 通信 使 用 
电话 线 作为 底层 通信 介质 。 

可 是 ， 由 于 电话 线 (或 者 电缆 ) 本 身 并 不 适合 用 来 传递 数字 信号 ， 即 用 0 伏 电压 表示 
的 0， 和 3 ~ 5 伏 电 压 表示 的 1， 如 图 2-38a 所 示 。 当 直接 用 这 两 种 电压 来 在 原本 设计 用 
来 传递 语音 信和 号 的 电话 线 上 传递 时 ， 会 受到 相当 大 的 和 干扰， 导致 传输 出 错 。 如 果 用 频率 为 
1000 ~ 2000Hz 的 正弦 波 信号 作为 载波 信号 ， 将 使 传输 错误 降低 许多 ,事实 上 ， 这 也 是 大 多 
数 电信 系统 的 基础 。 

由 于 正弦 波 的 波动 是 完全 规律 的 ， 所 以 如 果 只 是 正弦 波 的 话 ， 将 不 能 传递 任何 信息 。 可 
是 ， 我 们 通过 改变 正弦 波 的 振幅 、 频 率 或 相位 ， 就 可 以 传递 一 串 0 和 1 组 成 的 信号 ， 如 图 2-38 
所 示 。 我 们 把 这 个 过 程 叫做 信号 的 调制 ， 而 完成 这 个 过 程 的 设备 叫做 调制 解 调 器 ， 其 中 Mo 代 
表 调 制 器 (Modulator )，dem 代表 解 调 器 (DEModulator )。 调 幅 ( 见 图 2-38b ) 是 分 别 用 不 同 
的 电压 来 表示 0 和 1。 如 果 我 们 监听 一 条 低速 传输 数字 信和 号 的 电话 线 ， 传 输 1 时 将 听 到 一 阵 杂 
声 ， 传 输 0 时 则 没有 声音 。 

调频 ( 见 图 2-38c ) 的 话 ， 载 波 的 电压 〈 振幅 ) 是 稳定 的 ， 但 用 不 同 的 载波 频率 来 表示 0 
和 1。 监 听 调 频数 字 电 路 将 听 到 两 种 不 同 的 声调 ， 分 别 对 应 0 和 1。 调频 常常 也 称 为 频 移 键 控 
法 (frequency shift keying )。 

简单 的 调 相 过 程 ( 见 图 2-38d ) 中 ， 当 传送 的 数字 信号 由 0 变 为 1 或 由 1 变 为 0 时 ， 
载波 的 振幅 和 频率 保持 不 变 , 但 其 相位 将 做 180 度 的 转变 。 更 复杂 一 些 的 调 相 系统 中 ， 在 
每 个 单位 时 间 片 的 起 始 位 置 ， 载 波 的 相位 可 能 突变 45、135、225 或 315 度 ， 以 此 来 分 别 
表示 两 位 编码 的 变化 ， 我 们 称 为 双 位 调 相 编码 。 例 如 ， 可 以 用 相位 变化 45 度 表示 00， 变 
化 135 ERR 01 等 。 其 至 还 存在 一 个 单位 时 间 片 内 传送 3 位 或 更 多 位 的 调 相 方式 。 单 位 时 
间 片 内 的 不 同 的 载波 相位 数 (也 就 是 说 ， 每 秒 钟 内 载波 信号 最 多 能 变化 的 次 数 ) 为 载波 的 
波 特 率 。 对 于 每 个 载波 相位 传送 2 位 以 上 的 传输 方式 ， 比 特 率 将 超过 波 特 率 。 许 多 人 经 常 
将 这 两 个 概念 弄 混 淆 。 再 次 说 明 : 波 特 率 是 每 秒 钟 载波 信号 变化 的 次 数 ， 而 比特 率 是 每 秒 
传输 的 二 进 制 数据 位 数 。 一 般 情 况 下 ， 比 特 率 为 波 特 率 的 倍数 ， 但 理论 上 比特 率 也 可 能 小 
于 波 特 率 。 
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图 2-38 在 电话 线 上 逐 位 传送 二 进 制 数 01001011000100 


如 果 被 传送 的 数据 是 一 串 8 位 的 字符 ， 当 然 就 会 希望 有 一 个 连接 能 同时 传递 8 位 数据 ， 
也 就 是 说 ,希望 有 8 对 导线 。 由 于 语音 电话 只 提供 了 一 个 通路 ， 所 以 数据 位 必须 串 行 传送 ， 
即 一 位 传送 过 后 再 传送 下 一 位 〈 如 果 是 双 位 编码 则 将 两 位 一 组 传送 )。 从 计算 机 中 以 方 波 信号 
的 形式 逐 位 接收 信号 ， 然 后 用 调幅 、 调 频 或 调 相 方式 以 一 位 或 两 位 一 组 的 形式 发 送出 去 的 设 
备 就 是 调制 解 调 器 。 为 了 标记 每 个 字符 的 起 始 和 结束 ， 一 个 8 位 的 字符 通常 在 发 送 之 前 要 加 
上 起 始 位 和 停止 位 ， 使 得 总 共有 10 位 长 。 

发 送 数据 的 调制 解 调 器 发 送 字符 中 每 位 的 时 间 长 度 是 固定 的 。 例 如 ， 波 特 率 为 9600 的 调 
制 解 调 器 就 意味 着 每 104 微 秒 传送 一 位 。 位 于 接收 端的 调制 解 调 器 负责 将 载波 信号 还 原 成 二 
进 制 数据 。 因 为 数据 以 固定 速度 抵达 接收 端 ， 一 旦 接收 方 调制 解 调 器 得 到 字符 的 起 始 位 ， 其 
时 钟 就 可 以 控制 何 时 从 电话 线 的 信号 上 取样 ， 读 出 后 续 的 数据 位 。 

目前 的 调制 解 调 器 的 数据 传输 速度 为 56kbps， 但 其 波 特 率 通常 要 低 得 多 。 它 们 使 用 一 种 
技术 ， 在 一 个 波 特 里 以 调幅 、 调 频 或 调 相 方式 传送 多 位 数据 。 所 有 的 调制 解 调 器 都 是 全 双 工 
工作 ， 即 它们 能 同时 双向 发 送 和 接收 数据 ( 用 不 同 的 频率 )。 某 段 时 间 内 只 能 向 一 个 方向 传输 
数据 的 传输 线 和 调制 解 调 器 ( 就 像 单线 铁路 ， 不 能 同时 有 两 个 方向 的 火车 在 运行 ) 为 半 双 工 
工作 。 只 能 单 向 传送 数据 的 线路 为 单 工 线路 。 

2. DSL 

在 电信 公司 终于 将 传输 速度 提高 到 56kbps 时 ， 它 自己 觉得 做 了 一 件 不 错 的 工作 。 然 而 ， 
此 时 有 线 电视 已 经 能 在 共享 电缆 上 提供 10Mbps 的 传输 速度 ， 卫 星 公 司 更 准备 地 提供 了 最 高 
达 50Mbps 的 带宽 。 由 于 互联 网 接 人 已 经 是 公司 业务 的 重要 增长 点 ， 电 信人 公司 ( 电话 公司 ) 
开始 意识 到 他 们 需要 提供 比 拨号 的 电话 线 更 有 竞争 力 的 产品 ， 其 应 对 之 策 是 开始 提供 新 的 数 
字 互 联网 接 人 服务 。 这 些 比 标准 的 电话 服务 带宽 更 宽 的 服务 常 称 为 宽带 ， 虽 然 这 个 术语 市 场 
味道 比 起 其 他 的 味道 要 浓 很 多 。 从 一 个 非常 狭窄 的 技术 角度 看 ， 宽 带 意味 着 有 多 个 信号 通道 ， 
而 基带 只 有 一 个 信号 通道 。 这 样 ， 从 理论 上 说 ，10G 的 以 太 线路 ， 尽 管 比 任何 电话 公司 提供 
的 “宽带 ”都 要 快 很 多 ， 也 根本 不 能 称 为 宽带 ， 因 为 它 仅 有 一 个 信号 通道 。 
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最 初 ， 电 信 公 司 为 用 户 提 供 了 多 种 宽带 服务 ， 都 统一 命名 为 xDSL ( 数字 用 户 线路 ，Digital 
Subscriber Line )， 仅 仅 是 x 有 所 不 同 。 下 面 我 们 要 讨论 的 是 这 些 服 务 中 可 能 将 最 为 流行 的 
ADSL ( 非 对 称 DSL )。 由 于 ADSL 技术 还 在 不 断 发 展 ， 目 前 ， 也 不 是 所 有 的 标准 都 已 经 制订 完 
成 ， 这 里 讨论 的 一 些 细节 问题 可 能 会 随 着 时 间 发 生 一 些 变化 ， 但 其 中 那些 基本 的 概念 应 该 是 正 
确 的 。 如 果 需 要 了 解 ADSL 的 更 多 的 信息 ， 可 以 参考 Summers ( 1999 ) 和 Vetter 等 (2000 )。 

调制 解 调 器 速度 太 慢 的 原因 ， 主 要 是 电话 是 用 来 传递 人 们 的 声音 ， 整 个 系统 都 为 此 进行 
了 精心 的 优化 ， 而 传输 数据 的 功能 并 没有 受到 足够 的 重视 。 从 每 个 电话 用 户 到 电话 局 的 本 地 
回路 ， 都 按照 习惯 被 电话 局 中 的 滤波 器 限制 在 3000Hz 的 频率 范围 内 ， 正 是 这 个 滤波 器 限制 了 
数据 传输 速率 。 本 地 回路 的 实际 带宽 与 它 的 长 度 有 关 ， 但 对 于 一 般 为 几 公里 距离 的 电话 线路 
来 说 ， 达 到 1.1MHz 应 该 是 没有 问题 的 。 

图 2-39 给 出 了 最 普遍 的 一 种 ADSL 实现 原理 。 实 际 上 ，ADSL 所 做 的 就 是 把 原来 的 滤波 
器 去 掉 ， 然 后 ， 将 本 地 回路 上 1.1MHz 的 频谱 划分 成 256 个 独立 的 频道 ， 每 个 是 4312.5Hz。0 
频道 用 于 POTS (无 格式 的 原 语音 服务 ，Plain Old Telephone Service) 频道 1 ~ 5 不 用 ， 以 
保证 语音 信号 和 数据 信号 互 不 干扰 。 其 余 的 250 个 频道 中 ，1 个 用 于 上 传 控 制 ，1 个 用 于 下 传 
控制 ， 其 他 的 就 可 全 部 用 于 传送 用 户 数据 了 。 这 样 ，ADSL 就 好 像 有 250 个 调制 解 调 器 一 样 。 


256 个 4kHz 的 频道 


mete 





电压 


0 2 1100kHz 
语音 正 载 数据 下 载 数据 
图 2-39 ADSL 工作 原理 


原理 上 说 ， 每 个 频道 都 可 以 用 来 进行 全 双 工 的 数据 流传 送 ， 但 是 ， 和 声 、 串 话 以 及 其 他 
的 不 利 因素 使 实际 的 系统 远 低 于 理论 上 的 限制 。 这 样 ， 服 务 提供 商 就 需要 决定 用 多 少 频 道 来 
上 传 数据 ， 多 少 频 道 下 传 数据 。 上 、 下 传 频道 各 50% 从 技术 上 说 是 可 以 的 , 但 大 多 数 服 务 商 
愿意 将 80% ~ 90% 的 带宽 用 于 下 传 数据 ， 因 为 一 般 来 说 ADSL 用 户 下 载 数据 远 多 于 他 们 的 上 
载 数 据 。 这 种 频道 上 的 分 配 正 是 其 名 称 ADSL 中 “A” 的 含义 (A 代表 不 对 称 ，Asymmetric ); 
常见 的 一 种 分 配方 案 是 将 32 个 频道 用 于 上 载 ， 其 余 的 用 于 下 载 数据 。 

在 每 个 频道 内 ， 线 路 的 信和 号 质量 不 断 地 被 监控 ， 并 在 必要 时 对 传输 速度 进行 调整 ， 这 样 ， 
就 造成 不 同 的 频道 有 不 同 的 数据 传输 速度 。 实 际 的 数据 使 用 一 种 调幅 和 调 相 组 合 的 模式 传送 ， 
每 个 波 特 最 多 传送 15 位 数据 。 例 如 ， 下 载 频 道 为 224 个 ， 波 特 率 为 4000， 每 个 波 特 传送 15 
位 数据 ,那么 ADSL 下 载 带宽 为 13.44Mbps。 实 际 的 电话 线 的 信 品 比 指标 无 法 使 ADSL 达到 
这 个 速度 ， 但 在 高 质量 的 回路 上 ， 短 时 达到 4 ~ 8Mbps 的 速度 还 是 可 能 的 。 ， 

图 2-40 是 ADSL 的 典型 应 用 配置 。 这 种 模式 下 ， 用 户 或 电信 公司 的 技术 人 员 必 须 在 客 
户 家 中 安装 一 个 NID( 网 络 接口 设备 ，Network Interface Device) 设备 。 这 个 小 塑料 盒 标 志 
着 电信 公司 资产 的 结束 和 用 户 资产 的 开始 。 紧 邻 着 NID (或 者 有 时 干脆 就 结合 在 一 起 ) 是 二 
个 模拟 信号 分 离 器 ， 它 将 0 ~ 4000Hz 的 波段 分 开 ， 分 别 给 POTS 和 数据 使 用 。POTS 信号 分 
给 原来 的 电话 或 传真 机 ， 而 数据 信和 号 分 给 ADSL 调制 解 调 器 。ADSL 调制 解 调 器 实际 上 就 是 
一 个 数字 信和 号 处 理 器 ， 相 当 于 250 个 并 行 工 作 在 不 同 频率 的 调制 解 调 器 的 作用 。 由 于 现在 的 
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ADSL 调制 解 调 嚣 大 多 数 为 外 置 的， 这 样 ， 计 算 机 必须 要 和 它 有 高 速 连接 。 通 常 ， 这 是 通过 
在 计算 机 内 装 一 个 以 太 网 卡 ， 并 运行 一 个 只 包含 计算 机 和 ADSL 调制 解 调 器 的 超 短 距离 的 两 
节点 以 太 网 程序 来 实现 的 。( 以 太 网 是 一 个 十 分 流行 和 廉价 的 局 域 网 标准 。) 偶尔 也 有 用 USB 
端口 代替 以 太 网 的 情况 。 将 来 ， 肯定 会 出 现 内 置 的 ADSL 调制 解 调 器 卡 。 























以 太 网 线 








电信 公司 大 楼 客户 的 房屋 
图 2-40 ”典型 的 ADSL 设备 配置 


电话 线 的 男 一 端 ， 也 就 是 电信 公司 那 边 ， 也 需要 安装 一 个 对 应 的 分 离 器 。 在 这 里 ， 信 号 
中 的 语音 部 分 被 分 离 出 来 ， 并 送 到 一 般 的 语音 交换 机 。 高 于 26kHz 的 信号 被 送 到 一 个 名 为 
DSLAM ( 数字 用 户 线 路 接 人 复 用 器 ，Digital Subcriber Line Access Multiplexer ) 的 新 设备 ， 
它 包 含有 和 ADSL 调制 解 调 器 功能 相同 的 数字 信号 处 理 器 。 只 要 数字 信和 号 被 还 原 成 位 流 ， 就 
会 被 组 合成 数据 包 ， 然 后 发 送 给 ISP。 

3. 有 线 电视 接 入 技术 

目前 ， 许 多 有 线 电视 公司 提供 通过 其 电缆 接 和 互联 网 络 的 服务 。 有 线 电视 接 人 技术 和 
ADSL 有 很 大 的 不 同 ， 值 得 在 此 简单 介绍 一 下 。 每 个 城市 的 有 线 电视 运营 商都 会 有 一 座 办 公 
大 楼 ， 还 有 许多 叫做 数据 转发 器 的 盒子 ， 里 面 全 是 电路 ， 分 布 在 它 的 势力 范围 内 的 各 个 角落 。 
数据 转发 器 通过 高 速 电缆 或 光纤 和 办 公 大 楼 相连 。 

每 个 数据 转发 器 有 一 根 或 多 根 电 缆 ， 这 些 电 缆 穿 过 数 以 百 计 的 家 庭 和 办 公 室 。 有 线 电视 
用 户 在 穿 过 自家 的 电缆 上 接 通信 号 ， 这 样 ， 数 以 百 计 的 用 户 将 共享 同一 根 到 数据 转发 器 的 电 
缆 。 通 常 ， 有 线 电 视 信 号 电缆 的 带宽 大 约 为 7530MHz。 有 线 电视 系统 和 ADSL 的 根本 区 别 在 
于 ， 电 话 用 户 有 独自 的 (也 就 是 非 共享 的 ) 电线 通 向 电信 公司 。 尽 管 从 实际 使 用 的 情况 看 ， 
单独 享用 一 条 1.1MHz 到 电信 公司 的 信道 和 与 400 个 用 户 ( 其 中 一 半 不 会 同时 使 用 信道 ) 共 
享 200MHz 的 频谱 差别 不 大 。 当 然 ， 这 还 是 意味 着 ， 使 用 有 线 电视 接 人 互联 网 的 用 户 可 以 在 
早晨 4 点 钟 得 到 比 下 午 4 点 钟 更 好 的 服务 ， 而 ADSL 用 户 得 到 的 服务 在 全 天 的 任何 时 段 基 本 
上 是 相同 的 。 和 希望 得 到 优质 的 有 线 电 视 接 人 互联 网 服务 的 用 户 可 能 愿意 考虑 搬 到 富 人 区 居住 
( 房子 之 间距 离 较 远 ， 故 每 根 电缆 的 共享 用 户 要 少 )， 或 干脆 搬 到 穷人 区 (没有 人 能 享受 得 起 
互联 网 服务 )。 

由 于 有 线 电 视 的 电缆 是 一 个 共享 的 传输 介质 ， 因 此 ， 裁定 由 谁 、 什 么 时 候 、 以 何 种 频率 
来 发 送信 号 是 信号 传输 的 一 个 关键 问题 。 为 了 解 其 工作 原理 ,我 们 首先 要 先 了 解 有 线 电 视 的 





a eg a a E 


运行 原理 。 北 美 地 区 的 有 线 电视 频道 一 般 使 用 54 ~ SSOMHz 的 频率 区 间 (其 中 要 除去 给 调频 
广播 的 88 ~ 108MHz )。 每 个 频道 使 用 6MHz， 包 括 用 来 防止 信号 在 不 同 频道 中 泄漏 的 隔离 波 
段 。 在 欧洲 ， 电 视 信号 使 用 的 最 小 频率 为 65MHz， 每 个 频道 使 用 6 ~ 8MHz， 以 满足 传输 高 
分 辨 率 的 PAL 制式 和 SECAM 制式 信号 的 要 求 ， 其 他 情况 和 北美 地 区 是 相似 的 。 电 视 信 号 传 
输 并 没有 使 用 最 低 波段 那 部 分 。 

为 了 在 有 线 电视 电缆 上 接 入 互联 网 ， 有 线 电 视 公司 需要 先 解决 两 个 问题 ;: 

1 ) 如 何在 不 干扰 有 线 电 视 节 目的 情况 下 增加 互联 网 的 接 入 ? 

2) 由 于 传统 的 有 线 电视 信号 放大 器 是 单 向 传输 的 ， 如 何 使 它 能 适应 双向 传输 的 要 求 ? 

有 线 电视 公司 选择 的 解决 方案 如 下 。 目 前 的 有 线 电视 电缆 传输 频率 高 于 5$50MHz 时 ， 甚 
至 到 750MHz 或 更 高 的 时 候 ， 也 能 保证 运行 正常 。 这 样 ， 可 让 上 载 的 流量 ( 即 用户 端 到 数据 
转发 器 的 流量 ) 使 用 5 ~ 42MHz 波段 (在 欧洲 可 以 更 高 一 些 )， 而 让 下 载 流量 ( 即 数据 转发 
器 到 用 户 端的 流量 ) 使 用 高 端的 频率 段 ， 如 图 2-41 所 示 。 
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图 2-41 用 于 互联 网 接 人 的 典型 有 线 电视 系统 的 频段 分 配 


需要 注意 的 是 ， 由 于 电视 信号 都 是 下 传 的 ， 这样， 就 可 以 用 一 个 仅 工 作 于 5 ~ 42MHz 频 
率 区 间 的 上 传 信号 放大 器 和 另 一 个 仅 工 作 于 54MHz 及 以 上 频率 区 间 的 下 传 信号 放大 器 ， 如 图 
2-41 所 示 。 这 样 ， 由 于 电视 信号 波谱 中 ， 低 频 部 分 要 少 于 高 频 部 分 ， 造 成 了 上 传 信号 和 下 传 
信和 号 的 不 对 称 。 另 一 方面 ， 下 载 流量 正好 远 高 于 上 载 流量 ， 有 线 电 视 运 营 商 也 十 分 乐意 接受 这 
个 现状 。 我 们 前 面 也 谈 到 ， 电 信 公 司 通常 提供 的 也 是 非 对 称 的 DSL 服务 ， 尽 管 他 们 在 技术 上 ， 
并 没有 理由 要 这 样 做 。 

这 样 ， 通 过 有 线 电 视 电缆 接 入 互联 网 ， 需 要 有 一 个 有 线 电 缆 调制 解 调 器 ( cable modem ), 
它 是 一 个 有 两 个 接口 的 设备 : 一 个 连接 到 计算 机 ， 另 一 个 接口 连接 到 电缆 网 络 。 计 算 机 到 有 
线 电缆 的 调制 解 调 器 接口 十 分 简单 ， 就 是 和 ADSL 一 样 的 常规 以 太 网 。 也 许 在 不 久 的 将 来 ， 
整个 调制 解 调 器 将 变 成 一 块 内 置 在 计算 机 中 的 小 卡 ， 就 像 连接 电话 的 调制 解 调 器 一 样 。 

另 一 端的 接口 就 比较 复杂 一 些 。 要 实现 一 大 堆 处 理 无 线 电工 程 的 电缆 标准 ， 这 些 已 经 超 
出 了 本 书 的 范围 。 需 要 在 这 里 特别 指出 的 一 点 是 ， 和 ADSL 调制 解 调 器 一 样 ，cable mdodem 
是 一 直 保持 连接 的 。 也 就 是 说 ， 设 备 一 加 电 ， 就 将 建立 连接 ， 并 一 直 保 持 ， 除 非 电源 断 电 。 
因为 有 线 电视 运营 商 并 不 根据 连接 时 间 进 行 计 费 。 

为 更 好 地 理解 它们 的 运行 原理 ， 让 我 们 先 看 cable modem 接 人 并 加 电 后 发 生 的 现象 。 调 
制 解 调 器 扫描 下 载 频 道 ， 寻 找 由 数据 转发 器 定时 发 送 的 特定 的 数据 包 ， 它 将 为 刚刚 上 线 的 调 
制 解 调 器 提供 系统 参数 。 一 旦 发 现 这 种 数据 包 ， 新 上 线 的 调制 解 调 器 将 在 一 个 上 载 频道 中 发 
出 信号 ， 通 知 数据 转发 器 自己 的 存在 。 数 据 转 发 器 回应 这 个 通知 ， 为 该 调制 解 调 器 设置 上 载 
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和 下 载 频 道 。 以 后 ， 如 果 数 据 转 发 器 认为 有 必要 平衡 负载 时 ， 也 可 以 调整 这 些 设置 。 

这 时 ， 调 制 解 调 器 发 送 一 个 特殊 的 包 ， 并 根据 经 过 多 长 时 间 可 得 到 对 这 个 包 的 应 答 , 来 
判断 它 和 数据 转发 器 之 间 的 距离 。 这 个 过 程 称 为 初始 化 测 距 (ranging )。 初 始 化 测 距 对 调制 解 
调 器 自动 适应 上 传 频道 运行 以 及 得 到 正确 的 时 序 信 和 号 都 十 分 重要 。 频 道 时 长 被 划分 为 微 时 隙 
( minislot )， 每 个 上 传 的 数据 包 将 安排 在 一 个 或 多 个 连续 的 微 时 隙 中 。 数 据 转发 器 定时 发 布 新 
一 轮 的 微 时 隙 信号 ， 但 由 于 信号 沿 电缆 的 传播 延迟 ， 并 非 所 有 的 调制 解 调 器 都 能 同时 得 到 这 
个 “发 令 枪 ”信号 。 知 道 它 与 数据 转发 器 的 距离 后 ， 每 个 调制 解 调 器 都 可 计算 出 第 一 个 微 时 
隙 真正 的 起 始 时 刻 。 微 时 隙 的 长 度 和 具体 的 网 络 有 关 。 每 次 典型 的 有 效 载 荷 是 8 字 节 。 

初始 化 阶段 ， 数 据 转发 器 还 要 为 每 个 调制 解 调 器 指定 一 个 用 来 请 求 上 传 带宽 的 微 时 隙 。 
通常 ， 多 个 调制 解 调 器 可 能 被 指定 了 同一 个 微 时 孙 ， 这 势必 造成 竞争 。 当 某 台 计算 机 需要 发 
送 数据 包 时 ， 将 首先 把 包 传 给 调制 解 调 器 ， 由 调制 解 调 器 向 数据 转发 器 申请 传输 数据 包 所 需 
要 的 微 时 隙 个 数 。 如 果 申 请 被 接受 ， 数 据 转发 器 发 送 一 个 确认 包 到 下 传 信道 ， 告 诉 调制 解 调 
器 已 经 为 它 的 数据 包 保留 了 哪些 微 时 隙 。 到 这 些微 时 除开 始 时 ， 调 制 解 调 器 可 以 发 送 它 的 数 
据 包 。 如 果 还 有 包 要 发 送 ， 也 可 在 这 些 数 据 包 的 头 部 的 一 个 字段 中 申请 更 多 的 微 时 隙 。 

相反 ， 如 果 在 申请 微 时 隙 的 时 候 发 生 了 竞争 ， 调 制 解 调 器 将 得 不 到 转发 器 的 确认 包 ; 它 
将 等 待 一 个 随机 的 时 间 后 ， 重 新 进行 申请 。 每 失败 一 次 ， 等 待 时 间 将 增加 一 倍 ， 以 尽量 使 传 
输 负载 均衡 。 

下 传 信道 的 管理 和 上 传 信道 完全 不 同 。 首 先 ， 下 传 时 只 有 一 个 发 送 方 ， 也 就 是 数据 转发 
器 本 身 ， 不 存在 竞争 ， 也 就 不 需要 划分 微 时 队 ， 实 际 上 就 是 统计 时 分 复 用 。 其 次 ， 下 传 流量 
通常 比 上 传 流量 大 很 多 ， 因 此 ,采用 的 是 204 字 节 长 度 的 固定 的 包 长 ， 这 其 中 有 些 是 用 于 检 
错 纠 错 的 Reed-Solomon 编码 ， 还 有 一 些 其 他 附加 的 字段 ， 真正 的 有 效 传输 量 是 184 字 节 。 选 
择 这 个 包 长 度 是 为 了 和 使 用 MPEG-2 格式 的 数字 电视 信号 兼容 ， 这 样 ， 电 视 信号 和 下 传 的 类 
据 流量 可 以 采用 同样 的 方式 格式 化 。 从 有 还 辑 上 看 ， 这 些 连 接 如 图 2-42 所 示 。 


BERIE 无 竞争 的 下 传 信 道 : 
采用 27Mbps 的 QAM-64， 有 效 载荷 184 字 节 
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有 竞争 的 上 传 信道 : 
采用 9Mbps 的 QPSK 及 8 字 节 的 微 时 隙 

图 2-42 ”北美 地 区 常用 的 上 、 下 传 信道 示意 图 。QAM-64 ( 正 交 调幅 ) 传输 率 为 6 位 /Hz, 但 只 能 工作 
在 高 频率 。QPSK ( 正 交 相 移 键 控 ) 工作 频率 较 低 ， 但 传输 率 仅 2 位 /Hz 


我 们 回 到 调制 解 调 器 的 初始 化 。 一 且 它 完成 了 测 距 工作 ， 得 到 了 上 传 信道 、 下 传 信道 并 
申请 到 了 微 时 孙 ， 就 可 以 发 送 数据 包 了 。 这 些 包 到 达 数 据 转发 器 后 ， 将 通过 专用 的 信道 转发 
到 有 线 电视 公司 的 主楼 ， 然 后， 再 被 传送 到 ISP (也 可 能 有 线 电视 公司 本 身 就 是 )。 第 一 个 数 
据 包 将 向 ISP 申请 一 个 动态 网 络 地 址 (JP 地 址 )， 同 时 ， 申 请 得 到 目前 的 精确 时 间 。 

下 一 步 将 涉及 安全 。 由 于 电缆 是 一 个 共享 的 传输 介质 ， 任 何人 ， 只 要 他 不 怕 麻 烦 ， 就 可 
以 监听 到 流 经 他 身边 的 所 有 流量 。 为 防止 有 人 监听 “邻居 ”的 信息 ， 所 有 的 流量 都 经 过 了 双 
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向 加 密 。 因 此 ， 部 分 初始 化 过 程 要 涉及 建立 加 密 的 密 钥 。 开 始 时 ， 也 许 有 人 会 认为 ， 两 个 陌 
生 人 ， 即 数据 转发 器 和 调制 解 调 器 ， 在 光天化日 、 众 目 瞬 皮下 ， 不 可 能 完成 这 项 任务 。 但 经 

过 实验 证 明 ， 这 是 可 能 的 。 但 这 里 用 到 的 技术 (Diffie-Hellman 算法 ) 已 经 超出 了 本 书 的 范 
围 。 感 兴趣 的 同学 可 以 参考 Kaufman 等 人 (2002 ) 对 此 的 讨论 。 

最 后 ， 调 制 解 调 器 还 需要 通过 安全 信道 登录 并 提供 其 唯一 的 标识 码 ， 到 这 时 ， 初 始 化 过 
程 才 完全 结束 。 用 户 现 在 才 可 以 登录 到 ISP， 开 始 上 网 。 

有 关 有 线 电视 调制 解 调 器 还 有 许多 问题 值得 讨论 。 这 些 问题 ， 可 以 参阅 Adams 和 
Dulchinos ( 2001 )、Donaldson 和 Jones ( 2001 ) 以 及 Dutta-Roy ( 2001 )。 


2.4.7 ”数码 相机 


数码 摄影 正 日 益 成 为 计算 机 的 热门 用 途 之 一 ， 使 数码 相机 也 成 为 计算 机 外 部 设备 的 一 种 。 
本 节 我 们 简单 介绍 数码 相机 的 工作 原理 。 所 有 的 照相 机 都 有 镜头 ， 它 可 在 照相 机 的 后 部 形成 
被 拍照 对 象 的 影像 。 传 统 的 照相 机 中 ， 其 后 部 放置 着 胶片 ， 它 被 光线 照 过后， 可 记录 一 个 隐 
含 的 图 像 。 这 个 图 像 通过 一 定 的 化 学 变化 后 可 以 显现 出 来 。 除 了 用 光敏 CCD ( 电荷 耦合 装置 ， 
Charge-Coupled Device ) 组 成 的 长 方形 阵列 代替 传统 的 胶片 外 ， 数 码 相机 的 工作 方式 几乎 和 传 
统 相机 相同 。( 有 些 数码 相机 用 的 是 CMOS， 但 本 书 中 ， 我 们 还 是 集中 讨论 更 为 流行 的 CCD。 ) 
当 光 线 照射 到 CCD ， 它 会 获得 一 些 电荷 。 光 线 越 强 ， 得 到 的 电荷 就 越 多 。 通 过 模 / 数 转 
换 ， 可 以 把 电荷 量 转换 为 0 ~ 255 (低档 相机 ) 或 0 ~ 4095 ( 高档 相机 ) 的 整数 来 表示 。 数 
码 相 机 的 基本 构成 如 图 2-43 所 示 。 
一 个 像素 点 由 4 个 
CCD 组 成 ， 一 个 
保存 红 光 ， 一 个 


保存 蓝光 ， 两 个 
保存 绿 光 
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数码 相机 


图 2-43 ”数码 照相 机 


每 个 CCD 仅 能 感应 出 一 个 数值 ， 无 法 表示 照射 它 的 光 的 颜色 。 为 生成 彩色 图 像 ，CCD 

fk 4 个 一 组 进行 组 合 ，CCD 的 上 方 ， 放 置 了 一 个 Bayer 过 滤器 ， 使 得 只 有 红 光 才能 照射 到 其 

中 每 组 中 4 个 CCD 中 的 1 个 ， 蓝 光照 射 到 另 1 个 ， 绿 光照 射 到 其 余 的 2 个 。 使 用 2 个 CCD 
来 表示 绿 光 是 因为 ， 用 4 个 CCD 来 表示 一 个 像素 点 比 用 3 个 要 方便 许多 ， 同 时 ， 人 的 眼睛 对 
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绿 光 比 对 红 、 蓝 两 种 颜色 要 更 敏感 一 些 。 如 果 一 个 数码 相机 的 制造 商 声称 其 产品 有 600 77 
素 ， 他 就 是 在 撒谎 。 实 际 上 是 相机 有 600 万 个 CCD ， 共 同 组 成 了 150 万 个 像素 点 。 照 出 的 图 
像 将 按照 2828 x 2121 的 点 阵 阵 列 ( 低档 相机 ) 或 3000 x2000 (高 级 单反 相机 ) 的 点 阵 阵 列 
读 出 ， 其 他 额外 的 像素 则 由 数码 相机 内 的 软件 通过 插值 的 方式 产生 。 

当 数 码 相 机 的 快门 被 按 下 时 ， 相 机 中 的 软件 将 完成 以 下 三 个 任务 对焦 、 确 定 曝 光度 、 
设 定 白 平衡 。 自 动 对 焦 工作 是 通过 分 析 图 像 中 的 高 频 信息 ， 然 后 移动 镜头 ， 直 到 使 图 像 中 的 
高 频 信息 最 大 、 图 像 最 清晰 而 完成 的 。 曝 光度 是 通过 测量 照射 到 CCD 的 光线 强度 ， 调 整 镜 头 
的 光圈 和 曝光 时 间 ， 使 光线 强度 正好 适合 CCD 的 表示 范围 来 确定 的 。 设 定 日 平衡 要 做 的 是 测 
量 入 射 光线 的 波谱 ， 到 后 期 进行 必要 的 颜色 修正 。 

然后 ， 图 像 被 从 COD 中 读 出 ， 并 作为 像素 阵列 存储 到 数码 相机 的 内 置 RAM 中 。 新 闻 记 
者 使 用 的 高 档 单反 数码 相机 可 以 每 秒 钟 拍摄 8 张 高 分 辩 率 的 图 像 ， 连 续 工 作 5 秒 钟 ， 这 需要 
KA 1GB 的 内 置 RAM， 在 把 图 像 永久 处 理 和 存储 之 前 暂 存 在 相机 中 。 低 档 的 数码 相机 中 的 
RAM 空间 会 少 一 些 ， 但 也 相当 多 。 

在 成 像 的 后 处 理 阶段 ， 数 码 相 机 软件 将 对 图 像 进行 白 平 衡 ， 主 要 是 颜色 修正 和 对 弱 的 红 
光 和 蓝光 进行 补偿 ( 例如 ， 对 于 阴影 中 的 拍摄 对 象 或 使 用 闪光 灯 的 情况 )。 然 后 ， 调 用 软件 的 
功能 对 画面 进行 降 噪 操作， 对 已 经 损坏 的 CCD 进行 像素 点 补偿 。 这 以 后 ， 还 要 对 图 像 进 行 锐 
化 (除非 用 户 关 闭 了 此 项 功能 )， 这 是 通过 寻找 图 像 的 边沿 并 增加 其 周围 点 的 倾斜 度 来 完成 。 

最 后 ， 还 可 能 对 图 像 进行 压缩 ， 以 降低 对 存储 容量 的 要 求 。 常 用 的 压缩 格式 是 JPEG 
( Joint Photographic Experts Group )， 对 原始 图 像 进行 两 维 空间 的 傅立叶 转换 ， 并 忽略 其 中 的 
一 些 高 频 元 素 。 通 过 这 种 转换 ， 图 像 所 需要 的 存储 空间 降低 了 ， 但 也 丢失 了 一 些 细 节 。 

当 上 面 所 有 这 些 相机 内 的 处 理 完成 后 ， 图 像 被 写 入 到 存储 介质 保存 ， 通 常 是 闪存 或 者 是 
微 硬盘 。 每 个 图 像 的 后 处 理 和 写 和 过程 可 能 要 费时 数秒 钟 。 

用 户 回 家 后 ， 可 将 数码 相机 连接 到 计算 机 ， 一 般 用 的 是 诸如 USB 接口 或 专用 电缆 。 然 后 ， 
图 像 从 数码 相机 的 存储 介质 中 传 到 计算 机 硬盘 内 。 用 一 些 特定 的 软件 ， 如 Adobe Photoshop, 
用 户 可 再 次 修 前 图像， 调整 亮度 、 对 比 度 ， 进 行 颜色 平衡 、 锐 化 、 虚 化 或 删 去 部 分 图 像 ， 甚 至 
进行 多 层 过 滤 。 当 用 户 对 结果 满意 后 ， 他 可 以 将 图 像 文件 用 彩色 打印 机 打印 输出 ， 通 过 互联 网 
上 载 到 网 站 和 大 家 共享 ， 或 送 到 图 片 社 去 洗 印 ， 或 写 到 CD-ROM, DVD 中 存档 。 

把 单反 数码 相机 的 计算 能 力 、RAM、 硬 盘 空 间 和 软件 等 全 面 考虑 就 是 一 件 令 人 头疼 的 事 
情 , 但 相机 中 的 计算 机 不 但 要 完成 所 有 上 述 工作 ， 还 要 负责 和 镜头 中 的 CPU、 闪 存 中 的 CPU 
通信 ， 刷 新 液晶 显示 屏 上 的 图 像 ， 实 时 管理 所 有 的 按钮 、 齿 轮 、 光 线 、 显 示 屏 及 其 他 的 一 些 
小 配件 。 这 实际 上 是 一 个 功能 强大 的 嵌入 式 系 统 ， 通 常 可 以 和 近 几 年 前 的 桌面 计算 机 的 计算 
能 力 相 当 。 


2.4.8 字符 编码 


每 台 计算 机 都 有 自己 使 用 的 字符 集 。 这 个 集合 至 少 应 包括 26 个 大 写字 母 、26 个 小 写字 
母 、 数 字 0 ~ 9 和 一 些 特殊 字符 ， 如 空格 、 小 数 点 、 减 号 、 豆 号 和 回 车 等 。 

为 将 这 些 字 符 输入 到 计算 机 ， 每 个 字符 在 计算 机 中 都 用 一 个 整数 表示 。 例 如 ， 我 们 可 以 
定义 a=1、b=2、…、z=26、+=27、-=28。 将 字符 用 整数 表示 的 方法 为 字符 编码 。 互 相 进 行 通 
信 的 计算 机 必须 使 用 相同 的 编码 ， 理 则 ， 它 们 将 无 法 理解 对 方 的 信息 。 正 是 因为 这 个 原因 才 
制定 了 许多 编码 标准 。 下 面 我 们 将 讨论 最 重要 的 三 种 编码 。 
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1. ASCII 

ASCII (美国 信息 交换 编码 标准 ，American Standard Code for Information Interchange ) 是 
目前 广泛 使 用 的 字符 编码 。 每 个 ASCII 字符 有 7 位 ， 一 共有 128 个 字符 。 图 2-44 是 ASCH F 
符 编码 表 。 其 中 字符 0 ~ 1F (十 六 进 制 ) 是 控制 字符 ， 不 能 打印 。 字 符 128 ~ 255 并 不 属于 
ASCI 字符 , 但 IBM PC 将 它们 定义 为 人 “笑脸 ”等 特殊 字符 ， 目 前 依然 得 到 许多 计算 机 的 
支持 。 


数据 连接 断 开 
信息 头 起 始 设备 控制 1 
文本 起 始 设备 控制 2 
文本 结束 设备 控制 3 
传输 结束 设备 控制 4 
询问 反 向 应 答 
应 答 同步 空闲 


响 铃 传输 块 结束 
退 格 取消 

水 平 制 表 符 媒体 结束 
换行 

垂直 制 表 符 

换 页 

回 车 
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图 2-44 ASCII 码 字符 集 ( 编码 为 十 六 进 制 ) 
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许多 ASCH 控制 字符 原本 是 设计 用 于 数据 传输 的 。 比 如 ， 一段 信息 应 该 由 SOH ( 信息 头 
起 始 ,Start of Header ) 字符 、 信 息 头 、STX( 文本 起 始 ,Start of Text) 字符 、 要 传送 的 文本 本 身 、 
ETX (文本 结束 ，End of Text) 字符 ， 以 及 EOT (传送 结束 ，End of Transmission ) 字符 组 成 。 
然而 ， 现 实情 况 是 ， 通 过 电话 线 和 网 络 传输 信息 的 格式 很 不 相同 ， 所 以 ，ASCII 传输 控制 字 
符 现 在 用 得 并 不 多 。 

ASCI 打印 字符 可 一 目 了 然 ， 包括 大 写字 母 和 小 写字 母 、 数 字 、 标 点 符号 和 少量 算术 运 
算 符 。 

2. Unicode 

计算 机 工业 主要 是 在 美国 成 长 起 来 的 ， 这 使 得 ASCII 码 十 分 流行 。ASCII 码 对 英语 来 说 
十 分 合适 ， 但 不 太 适 用 于 其 他 语言 。 法 语 需 要 重音 符 (例如 ，systeme )， 德 语 也 有 区 分 符 (如 
fir) 等 。 还 有 些 欧洲 语言 的 字符 ASCII 码 根本 就 没有 ， 如 德语 的 8 和 丹麦 语 的 %。 另 外 ， 有 
的 语言 用 的 是 完全 不 同 于 英语 的 字母 表 ( 如 俄语 和 阿拉 伯 语 )， 还 有 一 些 语 言 没 有 字母 表 ( 如 
汉语 )。 随 着 计算 机 迅速 扩散 到 我 们 这 个 星球 的 每 个 角落 ， 软 件 销售 商 需要 将 他 们 的 产品 销售 
到 非 英语 国家 ， 这 就 需要 采用 不 同 的 字符 集 。 

IS 646 做 出 了 扩充 ASCI 码 的 第 一 次 尝试 ， 往 ASCI 字 符 集中 增加 了 128 个 字符 ,使 
之 成 了 8 位 的 Latin-1 码 。 增 加 的 字符 主要 是 带 重 音符 和 区 分 符 的 拉丁 字母 。 后 来 制订 的 IS 
8859 引入 了 码 页 的 概念 ， 将 特定 的 一 种 或 一 组 语言 的 256 个 字符 集合 定义 为 一 个 码 页 。IS 
8859-1 就 是 Latin-1, IS 8859-2 为 拉丁 语系 的 斯 拉夫 语 ( 如 捷克 语 、 波 兰 语 和 匈牙利 语 )，IS 
8859-3 包括 了 土耳其 语 、 马 耳 他 语 、 世 界 语 和 加 利 西亚 语 等 语言 的 字符 。 码 页 带 来 的 不 足 是 
软件 必须 记录 它 目前 所 使 用 的 码 页 ， 不 可 能 将 在 不 同 码 页 上 的 语言 混在 一 起 使 用 ， 而 且 也 没 
有 解决 汉语 和 日 语 的 问题 。 

为 解决 这 个 问题 ， 一 些 计 算 机 公司 形成 了 一 个 联盟 ， 决 定 另 辟 蹊 径 ， 创 立 了 一 个 
Unicode 的 细 新 的 系统 ， 后 来 也 成 了 国际 标准 ( 即 IS 10646 )。Unicode 目前 已 获得 一 些 程序 
语言 (如 Java )、 操 作 系 统 (如 Windows) 和 许多 应 用 的 支持 。 

Unicode 最 基本 的 思路 是 将 每 个 字符 和 符号 赋 一 个 永久 、 唯 一 的 16 位 值 ， 即 码 点 ， 不 再 使 
用 多 字 节 字符 或 ESC 字符 序列 。 将 每 个 字符 长 度 固定 为 16 位 长 使 得 软件 的 编制 简单 了 许多 。 

每 个 符号 为 16 位 ， 那 么 ，Unicode 共有 65 536 个 码 点 。 由 于 全 世界 的 语言 一 共 使 用 
TRA 200 000 个 符号 ， 码 点 就 成 了 一 种 稀缺 资源 ， 不 能 随意 分 配 。 为 使 大 家 更 容易 接受 
Unicode， 联 盟 聪 明 地 将 Latin-1 的 码 点 定义 为 0 ~ 255, 414 ASCII 码 到 Unicode 的 转换 十 分 
容易 。 为 防止 码 点 的 浪费 ， 每 个 区 分 符 都 有 自己 的 码 点 ， 由 软件 来 决定 如 何 将 区 分 符 和 其 相 
邻 的 字符 组 合成 新 字符 。 这 给 编程 增加 了 一 些 工 作 量 ， 但 节约 了 宝贵 的 码 点 资源 。 

整个 码 点 空间 被 划分 为 块 ， 每 块 的 码 点 数 为 16 的 倍数 。Unicode 为 主要 字母 表 分 别 分 配 
了 各 自 连 续 的 空间 。 比 如 (括号 内 为 分 配给 该 语言 的 码 点 数 ) 拉丁 语 (336 )、 和 希腊 语 ( 144 )、 
斯 拉夫 语 (256 )、 亚 美 尼 亚 语 (96 )、 希 伯 来 语 ( 112 )、 栖 文字 母 (128) REBATE (128), 
RWIS ( 128 )、 泰 卢 固 语 (128) 和 卡 纳 达 语 ( 128 )。 值 得 指出 的 是 ， 分 配给 这 些 语言 的 码 
点 数 都 超过 了 它们 的 字母 数 ， 这 样 做 的 原因 之 一 是 许多 语言 中 的 一 个 字母 都 可 能 有 多 种 形式 。 
如 英语 中 的 每 个 字母 都 有 大 、 小 写 。 一 些 语言 中 的 字母 根据 其 在 单词 中 的 开始 、 中 间 、 结 束 
位 置 的 不 同 ， 甚 至 有 三 种 形式 。 

在 这 些 字母 表 之 外 ，Unicode 还 分 配 了 一 些 码 点 给 区 分 音符 ( 112 )、 标 点 符号 (112) E 
下 标 字符 ( 48 )、 货 币 字 符 〈48 )、 算 术 符 号 (256 )、 几 何 图 符 (96 ) 和 装饰 符号 (192) 
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再 往 后 就 是 汉语 、 日 语 和 朝鲜 语 所 需要 的 符号 了 。 先 是 1024 个 发 音符 号 ( 如 片 假名 和 汉 
语 的 拼音 字母 )， 然 后 是 在 汉语 和 日 语 中 使 用 的 象形 符号 (20992) 和 朝鲜 语 的 Hangul 音节 
( 11 156 )。 

为 方便 用 户 为 特殊 目的 “发 明 ” 一 些 特殊 字符 ，Unicode 分 配 了 6400 个 码 点 供用 户 进 行 
本 地 化 时 使 用 。 

Unicode 解决 了 计算 机 国际 化 带 来 的 许多 问题 ， 但 没有 (试图 ) 解决 所 有 这 类 问题 。 例 
如 ， 拉 丁字 母 表 已 经 是 字典 序 了 ， 但 汉字 的 象形 符号 却 不 是 字典 序 ， 这 样 ， 英 语 程序 可 以 通 
过 简单 地 比较 一 下 “cat” 和 “dog” 这 两 个 词 的 第 一 个 字母 的 Unicode 值 ， 将 这 两 个 单词 按 字 
上 典 序 排序 ， 但 日 语 程序 就 需要 维护 一 张 附 加 表 来 确定 两 个 符号 的 字典 顺序 。 

另 一 个 问题 是 如 何 适应 新 词 的 不 断 出 现 。50 年 前 没有 人 会 说 起 诸如 应 用 程序 (app) W 
RE (chatroom )、 电 脑 空 间 (cyberspace )、 情 感 符号 ( emoticon )、 千 兆 字 节 ( gigabyte )、 激 
光 (1laser )、 调 制 解 调 器 (modem )、 笑 脸 符号 (smiley )、 录 像 带 (videtape ) 这 些 词 。 对 英语 
来 说 ， 增 加 一 些 新 闻 并 不 需要 增加 码 点 ， 但 对 日 语 来 说 就 需要 了 。 除 技术 词语 外 ， 至 少 还 有 
20 000 个 新 的 人 命 和 地 名 ( 大 多 数 为 汉语 ) 要 增加 。 盲 人 需要 向 其 中 加 入 盲文 符号 ， 还 有 其 
他 的 一 些 团体 也 要 用 到 他 们 自己 的 符号 的 码 点 。Unicode 联盟 正在 审查 和 决定 这 些 新 的 方案 。 

Unicode 对 看 起 来 很 像 但 意思 不 同 ， 或 写法 上 稍 有 区 别 的 日 语 和 汉语 符号 赋 的 是 一 个 码 
点 (就 像 英语 的 字 处 理 软件 总 是 将 “biue” 拼 成 “blew” 一 样 ， 因 为 它们 的 发 音 相同 )。 有 些 

140| 人 认为 这 是 为 节约 稀缺 码 点 资源 的 一 种 优化 ， 另 外 一 些 人 劫 将 它 看 成 是 大 英语 文化 帝国 的 强 
权 ( 你 会 把 给 字符 赋 一 个 16 位 的 值 高 度 政治 化 吗 ? )。 更 为 糟糕 的 是 ， 一 本 日 语 字 典 中 的 日 
文 汉字 ( 不 包括 姓名 ) 高 达 50 000 个 ，Unicode 必须 选择 其 中 的 20 992 个 赋 给 码 点 。 但 并 
不 是 所 有 的 日 本 人 都 认为 一 个 计算 机 联盟 ， 虽 然 里 面 有 几 家 日 本 公司 ， 是 选择 哪些 汉字 进入 
Unicode 的 合适 机 构 。 

猜 一 下 发 生 了 什么 ? 65 536 个 码 点 无 法 满足 所 有 人 ， 因 此 ，1996 年 ， 另 外 新 增 了 16 个 
平面 (plane )， 每 个 平面 依然 保持 16 位 编码 ， 使 整个 系统 能 表示 的 字符 增加 到 1 114 112 个 。 

3. UTF-8 

尽管 比 ASCI 要 好 ,但 Unicode 最 终 也 耗 尽 了 所 有 的 码 点 ， 而 且 ， 对 于 纯 ASCH 文本 ， 
它 也 要 用 16 位 表示 1 个 字符 ， 这 也 有 些 浪费 。 因 此 ， 提 出 了 一 种 新 的 编码 标准 来 解决 这 些 问 
题 。 这 就 是 UTF-8 UCS 转换 格式 ( UTF-8 UCS Transformation Format )， 其 中 UCS 代表 通用 
字符 集 (Universal Character Set )， 本 质 上 说 就 是 Unicode。UTF-8 编码 是 可 变 长 度 的 ， 从 1 
字 节 到 6 字 节 都 有 ， 可 以 为 20 亿 个 字符 进行 编码 。 现 在 成 了 万 维 网 上 占 统治 地 位 的 字符 集 。 

UTF-8 的 一 种 好 的 特性 是 其 编码 0 ~ 127 安排 给 了 ASCI 字符 ， 而 且 是 用 1 个 字 节 表示 
(而 Unicode 用 了 2 个 字 节 )。 对 于 不 在 ASCII 字符 集中 的 字符 ， 其 首 字 节 最 高 位 被 设 为 1， 表 
明 其 后 面 还 有 1 个 或 多 个 字 节 共同 表示 该 字符 。 总 体 上 ， 有 6 种 不 同 的 字符 格式 ， 如 图 2-45 
所 示 ， 图 中 的 “d” 表 示 数 据 位 。 

与 Unicode 及 其 他 字符 集 比 ，UTF-8 具有 许多 优点 s。 首先 ， 如 果 某 程序 或 文档 仅仅 使 用 
了 ASCI 字 符 集 的 字符 ， 则 每 个 字符 均 只 需要 用 8 位 表示 。 其 次 ， 每 个 UTF-8 字符 的 长 度 均 
由 该 字符 的 第 1 个 字 节 确定 。 第 三 ，UTF-8 字符 后 续 字 节 中 均 由 “10” 开 类 ， 而 首 字 节 却 不 
是 ， 这 使 它 完 全 自 同 步 。 在 通信 或 者 内 存 发 生 错误 时 ， 这 让 我 们 有 可 能 跳 过 出 错字 符 ， 直 接 

找到 下 一 个 字符 的 起 始 位 置 ( 假定 下 一 个 字符 没有 发 生 错误 )。 
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110ddddd 
1110dddd | 10dddddd | 10dddddd 








11110ddd | 10dddddd 
111110dd | 10dddddd 
10dddddd 10dddddd 


图 2-45 UTF-8 字符 集 编 码 格式 














通常 情况 下 ，UTF-8 仅 用 于 对 17 个 Unicode 平面 进行 编码 ， 尽 管 它 的 容量 远 超过 1 114 112 
个 码 点 。 不 管 怎样 ， 如 果 人 类 学 家 在 新 几内亚 发 现 了 新 部 落 ， 或 在 某 地 发 现 新 部 落 ， 而 他 们 的 
语言 不 是 我 们 现在 所 掌握 的 语言 (或 者 我 们 今后 和 外 星人 尝试 联系 )，UTF-8 应 该 可 以 胜任 把 新 
语言 的 字母 表 或 者 象形 文字 扩充 进来 。 


2.5 she 


计算 机 系统 由 三 个 部 分 组 成 : 处 理 器 、 存 储 器 和 输入 输出 设备 。 处 理 器 的 任务 是 每 次 从 存 
储 器 中 取出 一 条 指令 ， 对 指令 进行 译 码 ， 然 后 执行 指令 。 取 指 、 译 码 和 执行 指令 这 个 循环 总 是 
可 以 用 算法 进行 描述 ， 而 且 ， 事 实 上 ， 一 些 计 算 机 的 这 个 循环 就 是 由 底层 软件 来 实现 的 。 为 提 
高 运行 速度 ， 目 前 的 许多 计算 机 已 经 有 一 条 或 多 条 流水 线 ， 或 有 了 多 个 可 并 行 操 作 的 功能 部 件 
组 成 的 超标 量 体 系 结构 。 流 水 线 将 指令 分 解 成 步骤， 以 及 可 同时 执行 不 同 指令 的 步骤 。 超 标量 
体系 结构 是 获得 并 行 性 的 另 一 种 方式 ， 它 不 影响 指令 集 、 程 序 员 或 编译 器 可 见 的 体系 结构 。 

多 处 理 器 系统 已 经 越 来 越 普 遍 。 并 行 计算 机 有 以 下 几 类 : 同一 运算 同时 在 多 个 数据 集合 
上 操作 的 阵列 处 理 器 ; 多 CPU 共享 公共 内 存 的 多 CPU 计算 机 和 每 台 计 算 机 有 自己 的 内 存 ， 
通过 消息 传递 进行 通信 的 多 计算 机 系统 。 

存储 器 系统 可 分 为 主 存储 器 和 辅助 存储 器 。 主 存储 器 用 来 存放 当前 正在 执行 的 程序 ， 其 
访问 时 间 比 较 短 一 一 最 多 为 几 十 个 纳 秒 ， 且 和 被 访问 的 地 址 无 关 。 高 速 缓存 的 访问 时 间 更 短 。 
设置 高 速 缓存 的 原因 是 处 理 器 速度 远 高 于 内 存 的 速度 ， 让 处 理 器 一 直 在 等 待 存储 器 会 极 大 地 
降低 处 理 器 的 性 能 。 为 提高 可 靠 性 ， 一 些 存储 器 还 有 纠 错 码 。 

辅助 存储 器 正 相 反 ， 访 问 时 间 比 较 长 〈 几 毫秒 或 更 长 ) 且 和 被 读 或 写 的 数据 的 位 置 有 关 。 
磁带 、 闪 存 、 磁 盘 和 光盘 是 最 常用 的 辅助 存储 器 。 磁 盘 有 很 多 种 类 ， 包 括 IDE 盘 、SCSI 盘 和 
RAID 盘 。 光 盘 包 括 有 CD-ROM, CD-R, DVD 和 蓝光 。 

输入 /输出 设备 用 于 计算 机 和 外 部 世界 交换 信息 。 它 们 通过 一 条 或 多 条 总 线 和 处 理 器 及 
存储 器 连接 。 我 们 举 的 例子 有 终端 、 鼠标、 游戏 控制 器 、 打 印 机 和 调制 解 调 器 。 大 多 数 输入 / 
输出 设备 使 用 ASCII 字符 集 ， 尽 管 随 着 计算 机 产业 越 来 越 以 Web 为 中 心 ，Unicode 也 得 到 了 
使 用 ， 而 UTF-8 正 迅 速 得 到 大 家 的 认可 。 


习题 


1. 假设 一 台 计 算 机 有 如 图 2-2 所 示 的 数据 通路 。 如 果 向 ALU 的 输入 寄存 器 中 装 人 数据 需要 5 
纳 秒 ，ALU 进行 运算 需要 10 纳 秒 ， 将 运算 结果 写 人 暂 存 器 中 需要 5 纳 秒 ,那么 ， 在 没有 
流水 线 的 情况 下 ， 这 侣 计算 机 的 速度 最 多 能 有 和 多少 MIPS 2 
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.在 2.1.2 节 的 指令 执行 步 又 中 步骤 2 的 目的 是 什么 ?如 果 省 略 该 步 ， 会 造成 什么 后 果 ? 

.在 1 号 计算 机 中 ， 所 有 的 指令 执行 时 间 都 是 10 纳 秒 ,而 2 号 计算 机 所 有 指令 执行 的 时 间 都 
是 5 纳 秒 。 你 能 说 2 号 计算 机 一 定 比 1 号 计算 机 快 吗 ? 请 讨论 。 

.假设 你 正在 设计 一 台 用 于 藤 入 式 系统 的 单 片 计算 机 ， 其 存储 器 全 部 在 芯片 上 且 访 问 速度 和 
CPU 能 够 匹配 ， 不 需要 延 时 。 请 检查 2.1.4 节 讨 论 的 各 条 原则 ， 它 们 还 是 那么 重要 吗 ? (4 
然 ， 我 们 还 是 追求 系统 的 高 性 能 。) 

.为 和 新 出 现 的 出 版 公司 相 抗衡 ， 中 世纪 的 一 座 庙 宇 决定 召集 大 量 的 抄写 员 于 大 厅 中 大 量 生 

产 平装 书 。 大 和 尚 高 声 读 出 书 中 的 第 一 个 词 ， 所 有 抄写 员 将 它 记 在 纸 上 ， 然 后 大 和 尚 再 读 

第 二 个 词 ， 抄 写 员 再 写 下 第 二 个 词 ， 如 此 ， 直 到 整 部 书 读 写 完毕 。2.1.6 节 讨 论 的 并 行 处 理 

器 系统 中 ， 哪 个 和 它 最 类 似 ? 

从 存储 器 的 五 层 层次 结构 自 顶 向 下 ， 甚 访问 时 间 逐 层 增加 。 假 定 光 盘 已 经 在 线 ， 请 对 光盘 

的 访问 时 间 是 寄存 器 访问 时 间 的 多 少 倍 做 合理 的 推测 。 

. 社会 学 家 的 调查 题 ， 比 如 “您 是 否 相 信 彼 怪 存在 ? ”之 类 一 般 有 三 个 可 能 的 答案 : 是 、 否 
和 不 清楚 。 据 此 ， 社 会 调查 计算 机 公司 决定 生产 一 种 专用 于 处 理 调查 结果 的 计算 机 。 这 种 
计算 机 的 存储 器 有 三 个 状态 ， 即 每 个 字 节 有 |8 个 三 状态 位 ， 每 位 可 存放 0，1，2 三 个 值 中 
的 一 个 。 用 它 存 放 一 个 6 位 二 进 制 数 需要 多 少 三 状态 位 ? 请 给 出 存放 位 二 进 制 数 所 需要 
的 三 状态 位 的 表达 式 。 

.用 下 列 信息 计算 人 眼 的 数据 处 理 速 度 。 可 视 区 由 大 约 10° 个 元 素 (像素 ) 组 成 。 每 个 像素 
可 以 简化 为 三 原色 的 组 合 ， 有 64 级 强度 。 时 间 单 位 为 100 毫秒 。 

.用 下 列 信息 计算 人 耳 的 数据 处 理 速度 。 人 能 听 到 的 声音 的 频率 为 22kHz。 为 捕获 22kHz 信 
号 中 的 所 有 的 信息 ， 必 须 用 两 倍 ， 也 就 是 44kHz 的 频率 对 其 采样 。16 位 的 样本 可 以 捕获 声 
音 中 的 绝 大 多 数 信息 (也 就 是 说 ， 人 耳 能 区 分 的 声音 强度 级 别 不 超过 65 535 种 )。 

10. 所 有 生物 的 基因 信息 都 由 其 DNA 分 子 的 结构 决定 ， 而 DNA 分 子 由 4 种 基本 的 核 苷 ， 即 
A、C、G 和 了 组 成 的 链 构成 。 人 类 的 染色 体 中 包含 将 近 3 x 10? AH, EMARMT AA 
30 000 个 基因 。 人 类 染色 体 中 能 存放 的 信息 的 容量 是 多 少 ? 平均 每 个 基因 的 信息 容量 是 多 
少 ? ( 均 以 位 为 单位 。) 

11. 某 台 计算 机 的 内 存 可 以 配 到 1 073 741 824 字 节 。 为 什么 生产 厂家 宁愿 选择 这 么 一 个 特殊 
的 数字 ， 而 不 用 一 个 容易 记 住 的 数 ， 比 如 1 000 000 000 HE? 

12. 为 数字 0 ~ 9 设计 一 套 偶 校 验 的 7 位 海 明 码 。 

13. 为 数字 0 ~ 9 设计 一 套 码 距 为 2 的 海 明 码 。 

14. 海 明 编码 中 ， 一 些 位 因为 只 用 作 校 验 位 ， 不 表示 任何 信息 而 “浪费 ”了 。 对 总 长 度 (数据 
位 + 校 验 位 ) 为 2"-1 的 消息 来 说 ， 其 浪费 的 百分比 是 多 少 ? 将 n 从 3 到 10 逐个 赋值 验证 
你 的 结果 。 

15. 某 扩展 的 ASCII 字符 由 8 位 二 进 制 数 表示 ， 给 每 个 字符 加 上 海 明 校 验 后 ， 它 可 以 表示 为 3 
个 16 进 制 数 码 的 字符 串 。 请 给 出 “Earth” 这 5 个 字符 经 上 述 扩展 并 进行 海 明 校 验 后 的 16 
进 制 串 。 

16. 下 面 的 16 进 制 数 是 上 题 中 扩展 后 ASC 码 的 海 明 校 验 码 : 0D3 DD3 0F2 5C1 1C5 CE3。 
请 将 该 串 进 行 解码 ， 给 出 其 原始 的 ASCII 码 字符 。 

17. 图 2-19 所 示 的 磁盘 每 道 有 1024 个 扇 区 ， 转 速 为 7200RPM。 该 盘 在 一 个 磁道 上 的 持续 传 

输 数 据 速 度 为 多 少 ? 
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18. 某 计 算 机 的 总 线 周 期 为 5 纳 秒 ,一 个 周期 内 可 从 存储 器 中 读 写 一 个 32 位 的 字 。 它 有 一 个 
使 用 该 总 线 的 Ultra4-SCSI 盘 ， 速 度 为 160M 字 节 / 秒 。CPU 一 般 每 1 纳 秒 取 出 并 执行 一 
条 32 位 的 指令 。 该 盘 使 CPU 速度 下 降 了 多 少 ? 

19. 想象 你 正在 写 操作 系统 的 磁盘 管理 部 分 。 逻 辑 上 ， 磁 盘 被 划分 成 块 组 成 的 一 个 序列 ， 最 里 
面 为 第 0 块 ， 最 外 面 为 最 大 的 块 号 。 由 于 要 创建 文件 ， 你 需要 申请 空闲 的 扇 区 。 你 可 以 采 
用 从 里 到 外 ， 也 可 以 用 从 外 到 里 的 顺序 。 不 同 的 选择 会 使 现在 的 磁盘 的 结果 相同 吗 ? 请 说 
明 你 的 看 法 。 

20. 读 出 一 个 共有 10 000 个 柱 面 ， 每 柱 面 有 4 个 道 ， 每 道 有 2048 个 扇 区 的 磁盘 需要 多 少时 
间 ? 假设 首先 从 0 道 的 0 扇 区 开始 读 出 整个 磁道 ， 然 后 从 1 道 的 0 扇 区 再 读 出 整个 磁道 ， 
并 继续 下 去 。 旋 转 时 间 为 10 毫秒 ， 相 邻 柱 面 间 的 寻 柱 面 时 间 为 1 毫秒 ， 最 坏 情 况 为 20 毫 
秒 。 柱 面 内 换 道 的 时 间 可 忽略 不 计 。 

. RAID 3 盘 可 以 只 用 一 个 校 验 盘 来 纠正 一 位 错 。RAID 2 的 纠 鲁能 力 如 何 ?” 毕 竟 ， 它 也 能 纠 
正 一 位 错 ， 只 是 用 的 盘 要 多 一 些 。 

.采用 方式 2 的 CD-ROM， 如 果 存 有 标准 的 80 分 钟 数据 ， 其 准确 的 数据 容量 是 多 少 ( 以 字 
节 为 单位 ) ? 如 果 用 户 数据 采用 方式 1 呢 ? 

.为 了 刻录 CD-R， 激 光束 必须 以 很 高 的 速度 开 和 关 。 若 以 10 倍速 刻 方式 1 的 盘 ， 激 光 开 或 
关 的 时 间 需 要 多 少 纳 秒 ? 

24. 为 在 单 面 单 层 的 DVD 上 存放 133 分 钟 的 视频 信和 号， 需要 对 数据 进行 压缩 。 试 计算 所 需要 

的 压缩 比 。 假 定 盘 上 的 空间 是 3.5GB， 输 出 图 形 的 分 辩 率 为 720 x 480, 24 色 (RGB 三 原 
色 各 占 8 位 )， 图形 的 输出 速度 为 30 帧 / 秒 。 

25. 蓝光 的 存储 容量 为 5GB， 以 4.5MB/s 的 速度 运行 。 它 读 完整 张 盘 的 内 容 需 要 多 长 时 间 ? 

26. 某 制造 商 的 广告 说 他 的 位 图 终端 可 显示 2 种 不 同 的 颜色 ， 而 每 个 像素 用 的 显存 只 有 1 个 
字 节 。 他 是 如 何 做 到 这 点 的 ? 

. 你 是 一 个 进行 最 高 机 密 科学 研究 的 团队 的 一 员 ， 你 们 团队 刚刚 受命 研究 一 种 名 为 Herb 的 
外 星人 类 ，Herb 来 自 10 号 行星 ， 最 近来 到 了 地 球 访问 。Herb 告诉 了 你 们 一 些 关于 他 的 眼 
睛 如 何 工作 的 信息 。 他 的 视野 包含 有 大 约 10 个 像素 ， 每 个 像素 是 5 种 色彩 (如 ， 红 外、 
红 、 绿 、 蓝 和 紫外 ) HY “BIN”, APA 32 级 强度 。Herb 的 时 间 分 辩 率 是 10 毫秒 。 
请 计算 Herb 眼睛 的 数据 传输 率 是 多 少 GB/s ? 

28. 某 位 图 终端 的 显示 器 分 辩 率 为 1920 x 1080， 显 示 器 每 秒 钟 刷 新 75 次 ， 对 应 于 一 个 像素 点 

的 刷新 时 间 是 多 长 ? 

以 特定 的 字体 ， 某 单 色 激光 打印 机 打印 按 每 页 5047, FETT 80 个 字符 输出 文本 。 平 均 每 

个 字符 的 大 小 为 2mm x 2mm， 其 中 25% 左右 有 墨 ， 其 他 部 分 是 空白 (the, RAB 

粉 )。 墨 层 厚 25Sum。 打 印 机 的 墨 合 尺 寸 为 25 x 8 x 2cm。 和 那么 ， 一 个 墨盒 打印 多 少 页 比较 

合适 ? 

30. Hi-Fi Modem 公司 刚 设 计 出 新 型 的 调频 调制 解 调 器 ， 它 使 用 了 64 种 频率 来 代替 原来 的 2 
种 。 可 以 将 每 秒 钟 划分 成 相等 的 个 时 间 片 ， 每 个 时 间 片 使 用 64 种 频率 之 一 。 采 用 同步 
传送 方式 时 ， 这 种 调制 解 调 器 每 秒 钟 能 传送 多 少 位 ? 

. 某 互联 网 用 户 订购 了 2Mbps 的 ADSL 服务 。 他 的 邻居 订购 的 有 线 电视 接 人 互联 网 服务 是 
共享 12MHz 的 带宽 ， 采 用 的 是 QAM-64 模块 方式 。 这 个 电缆 上 共 连 接 了 jz 户 ， 每 户 都 有 
一 台 计 算 机 接 人 。 任 何 时 刻 ， 在 线 的 计算 机 比率 是 九 在 何 种 条 件 下 ， 通 过 有 线 电视 接 人 
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互联 网 的 用 户 能 得 到 比 通过 ADSL 接 入 的 邻居 得 到 的 更 好 的 服务 吗 ? 
. 某 数码 相机 的 分 辩 率 是 3000 x 2000 像素 ， 每 个 像素 点 用 3 个 字 节 存储 RGB 三 原色 。 相 机 
制造 商 希望 在 2 秒 钟 内 向 其 闪存 中 写 人 压缩 了 $ 倍 的 JPEG 图 像 文 件 ， 要 求 的 数据 传输 率 
是 多 少 ? 
. 某 高 端 数码 相机 有 一 个 2400 万 像素 点 的 传感器 ， 每 个 像素 点 用 6 字 节 表示 。 在 1 个 8GB 
的 闪存 卡 内 能 存放 多 少 张 5 倍 压 缩 的 图 片 ? 假定 1GB=2" 字 节 。 
34. 估计 一 下 一 本 典型 的 计算 机 科学 课本 有 和 多少 个 字符 ( 包括 空格 )。 并 以 此 为 基础 ， 计 算 将 
一 本 书 编码 成 带 有 校 验 位 的 ASCII 码 时 需要 多 少 二 进 制 位 ? 需要 多 少 张 CD-ROM 来 存放 
一 个 计算 机 科学 图 书馆 中 的 10 000 本 书籍 ? 如 果 用 双 面 双 层 的 DVD 来 存放 它们 又 需要 多 
少 张 ? 

35. 写 一 个 程序 hamming (ascii, encoded )， 将 ascii 中 的 低 7 位 转换 成 11 位 的 整 型 代码 字 存 
放 到 encoded 中 。 

36. 写 一 个 函数 distance (code, n, k)， 以 k 位 的 n 个 字符 组 成 的 数组 code 为 输入 ， 返 回 字 
符 集 的 距离 作为 输出 。 
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图 1-2 所 示 的 计算 机 层次 结构 图 的 最 底层 为 数字 逻辑 层 ， 是 计算 机 真正 的 硬件 。 本 章 我 
们 将 学 习 数 据 逻辑 层 的 各 个 方面 ， 作 为 在 后 续 章 节 中 继续 研究 更 高 层次 的 基础 。 数 字 逮 辑 是 
计算 机 科学 和 电子 工程 学 的 交叉 学 科 ， 但 这 些 知识 本 身 是 独立 的 ， 所 以 学 习 本 章 并 不 需要 硬 
件 和 电子 工程 方面 的 先 修 课程 。 

制造 数字 计算 机 的 基本 元 件 都 令 人 惊讶 的 简单 。 我 们 首先 简单 介绍 一 下 这 些 基 本 元 件 及 
用 来 分 析 它 们 的 二 值 代数 〈 布尔 代数 )， 然 后 ， 了 解 一 些 通过 逻辑 门 的 简单 组 合 构成 的 基本 电 
路 ， 包 括 进行 算术 运算 的 电路 。 再 往 后 ， 就 是 如 何 将 门 电路 组 合 起 来 存放 信息 ， 即 存储 器 是 
如 何 构成 的 。 这 之 后 ， 我 们 将 讨论 CPU， 尤 其 是 单 片 CPU 芯片 以 及 它 和 存储 器 、 外 部 设备 的 
接口 。 最 后 ， 本 章 还 将 讨论 几 个 来 自 工 业界 的 实例 。 


3.1 门 和 布尔 代数 


数字 电路 是 由 少量 几 个 基本 元 素 通过 多 种 方式 组 合 而 成 的 。 后 面 几 节 中 ， 我 们 将 介绍 这 
些 基本 元 素 ， 说 明 它 们 可 以 如 何 进行 组 合 ， 并 介绍 一 个 可 用 来 分 析 它 们 的 强 有 力 的 数学 工具 。 


3.1.1 T] 


数字 电路 只 能 表示 两 个 逻辑 值 。 一 般 用 电压 为 0 ~ 0.5V 的 信号 表示 一 个 值 (如 二 进 制 
0 )， 用 电压 为 1 ~ 1.5V 的 信号 表示 另 一 个 值 (如 二 进 制 的 1 )。 这 两 个 范围 之 外 的 电压 值 为 
非法 值 。 一 种 我 们 称 为 门 的 微小 电子 设备 ， 可 以 用 来 实现 这 两 个 逻辑 值 的 多 项 运算 。 可 以 说 ， 
门 是 制造 所 有 数字 计算 机 的 硬件 基础 。 

门 的 详细 工作 原理 属于 设备 层 范围 的 内 容 ， 比 第 0 层 还 低 ， 已 超出 本 书 的 讨论 范围 。 但 
现在 我 们 还 是 简短 地 跑 一 会 儿 题 ,来 快速 地 回顾 一 些 基 本 的 概念 ， 它 们 也 不 是 很 难 。 说 到 底 ， 
所 有 的 数字 逻辑 最 终 都 建立 在 晶体 管 可 以 作为 一 个 快速 二 进 制 开 关 这 个 事实 上 。 图 3-1a 是 带 
一 个 二 极 晶 体 管 〈 圆圈 内 ) 的 简单 电路 。 该 晶体 管 对 外 有 三 个 管 脚 ， 集 极 、 基 极 和 射 极 。 当 输 
人 电压 Vin 低 于 特定 的 门槛 值 时 ， 晶 体 管 是 断 开 的 ， 其 功能 就 像 一 个 无 穷 大 的 电阻 。 这 就 使 其 
输出 电压 Von 的 值 接近 外 接 基准 电压 Vo 的 值 ， 对 这 类 晶体 管 来 说 ， 一 般 为 +1.5V。 而 当 Vin 的 
值 超出 门槛 值 时 ， 唱 体 管 被 接 通 ， 就 像 一 根 导线 ， 使 得 Vin 直接 接地 ( 即 电压 值 为 0 )。 

值得 注意 和 重视 的 是 ， 当 Vin 电压 较 低 时 ，Vou 的 值 较 高 ， 反 之 则 较 低 。 这 样 ， 该 电路 可 
以 说 是 一 个 反 转 器 ， 将 逻辑 值 0 转换 为 逻辑 值 1， 将 逻辑 值 1 转换 为 逻辑 值 0。 电 阻 ( 图 中 的 
锯齿 线 ) 对 它 来 说 是 必需 的 ， 用 它 来 限制 电流 ， 使 晶体 管 不 至 于 被 烧 坏 。 状 态 转换 的 时 间 一 
般 为 1 纳 秒 或 更 短 。 

图 3-1b 中 的 两 个 晶体 管 串联 层 芭 在 一 起 。 在 Vi 和 V 同时 为 高 时 ， 两 个 晶体 管 都 处 于 连 
通 状 态 ，Vou 将 被 拉 低 。 如 果 有 一 个 为 低 ， 则 该 晶体 管 的 状态 为 高 阻 态 ， 输 出 将 为 高 。 换 句 话 
说 ， 当 且 仅 当 Vi 和 V2 同时 为 高 时 ，Vow 才 为 低 。 
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图 3-1 


图 3-1c 中 的 两 个 晶体 管 并 联 ， 而 不 是 串联 。 这 种 情况 下 ， 任 何 一 个 输入 电压 为 高 ， 其 对 
应 的 晶体 管 将 处 于 连通 状态 ， 输 出 电压 为 低 。 若 两 个 输入 电压 均 为 低 时 ， 输 出 电压 保持 在 高 
电压 。 

上 面 这 三 个 电路 ， 或 它们 的 等 价 形态 ， 形 成 了 最 简单 的 三 个 门 ， 分 别 是 非 门 (NOT )、 与 
非 门 (NAND )、 或 非 门 (NOR )。 非 门 又 经 常 称 为 反 转 器 (inverter )， 本 书 中 我 们 将 不 加 区 
分 地 使 用 这 两 个 术语 。 如 果 我 们 采用 传统 的 将 “高 ”(Ve 伏 ) 定义 为 逻辑 1， 将 “ 低 ”( 地 电 
E) 定义 为 逻辑 0 的 方式 的 话 ， 就 可 以 将 输出 电压 表示 为 两 个 输入 电压 的 函数 。 图 3-2a ~ c 
分 别 给 出 了 这 三 个 门 的 符号 描述 ， 并 给 出 了 对 应 的 真 值 表 。 图 3-2 中 A 和 了 B 代表 输入 , XK 
示 输 出 。 表 中 的 每 行 给 出 了 不 同 输入 组 合 对 应 的 输出 值 。 




















图 3-2 5 种 基本 门 的 符号 和 真 值 表 


如 果 我 们 将 图 3-1b 的 输出 信号 再 次 输入 到 一 个 反 转 器 中 ， 就 得 到 了 一 个 和 与 非 门 完全 相 
反 的 电路 一 一 与 门 (AND )。 只 有 两 个 输入 信和 号 均 为 1 时 ， 与 门 的 输出 才 为 1， 图 3-2d 是 它 
的 符号 和 功能 描述 。 类 似 地 ， 或 非 门 的 输出 接 上 反 转 器 后 ， 形 成 了 一 个 只 有 当 两 个 输入 全 为 
0 时 输出 才 为 0 的 电路 ， 也 就 是 我 们 通常 说 的 或 门 ( OR )， 如 图 3-2e 所 示 。 图 中 反 转 器 、 与 
非 门 、 或 非 门 上 的 小 圆圈 ， 我 们 称 为 反 转 泡 (inversion bubble )。 除 了 作为 反 转 符号 外 ， 在 其 
他 地 方 也 经 常用 到 。 

图 3-2 所 示 的 5 个 门 是 数字 逻辑 层 最 主要 的 组 成 部 分 。 从 上 面 的 讨论 可 以 知道 ， 与 非 门 
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和 或 非 门 各 需要 两 个 晶体 管 ， 而 与 门 和 或 门 各 需 3 个 晶体 管 。 因 此 ， 许 多 计算 机 基于 的 是 
与 非 门 和 或 非 门 ， 而 不 是 我 们 更 熟悉 的 与 门 和 或 门 。( 现实 中 的 所 有 门 都 和 上 面 的 描述 稍 有 
区 别 ， 但 与 非 门 和 或 非 门 还 是 比 与 门 和 或 门 要 简单 。) 顺便 提 一 下 ， 门 也 可 以 有 超过 两 个 的 
输入 ， 从 原理 上 说 ， 如 与 非 门 可 以 有 任意 多 个 输入 ， 但 实际 上 ， 输 入 多 于 8 个 的 就 不 常见 
到 了 。 

尽管 门 的 内 部 结构 属于 设备 层 的 范畴 ， 但 它 和 本 章 的 内 容 息 息 相 关 ， 所 以 我 们 还 是 简单 
说 两 句 它 们 的 主要 制造 技术 。 两 种 生产 门 的 主要 技术 是 双 极 晶体 管 和 MOS ( 金属 氧化 物 半 导 
体 ，Metal Oxide Semiconductor )。 双 极 唱 体 管 主要 有 TTL (MEE - mAAR Z, Transistor- 
Transistor Logic ) 和 ECL ( 射 极 耦 合 逻 辑 ，Emitter-Coupled Logic ), TTL 曾 统治 数字 电子 器 
FZE, m ECL 主要 用 于 需要 超 高 速 运 行 的 场合 。 对 计算 机 的 电路 来 说 ,，MOS 电路 已 经 是 
占 主导 地 位 。 

MOS 门 电路 比 起 TTL 和 ECL 来 要 慢 一 些 ， 但 要 求 的 能 量 要 低 一 些 ， 体 积 也 要 小 一 些 ， 
故 可 以 较 大 数量 地 紧密 封装 在 一 起 。MOS 也 有 许多 种 类 ， 主 要 有 PMOS, NMOS 和 CMOS. 
虽然 MOS 晶体 管 的 制造 方法 和 双 极 晶体管 不 同 ， 但 其 门 电路 的 功能 和 作用 是 一 致 的 。 绝 大 多 
数 现代 CPU 和 存储 器 使 用 的 是 CMOS 技术 ， 电 源 的 电压 为 +1.5V 左右 。 对 于 设备 层 的 知识 ， 
我 们 就 介绍 上 面 这 些 。 对 该 层次 知识 感 兴趣 的 读者 可 以 参考 本 书 网 站 的 推荐 读物 。 


3.1.2 布尔 代数 


为 描述 通过 门 的 组 合 组 成 的 电路 ,我 们 需要 一 种 新 的 代数 ， 它 的 所 有 变量 和 函数 的 值 都 
只 能 为 0 和 1。 我 们 把 它 称 为 布尔 代数 ， 是 以 它 的 发 明 者 ， 英 国 数学 家 George Boolean( 1815 一 
1864) 命名 的 。 严 格 地 讲 ， 我们 这 里 所 指 的 是 一 类 特殊 的 布尔 代数 一 一 开关 代数 ,但 “布尔 代 
数 ” 这 个 术语 现在 已 经 是 常常 用 来 特 指 “ 开 关 代 数 ”"， 所 以 我 们 在 本 书 中 也 不 对 它们 加 以 区 分 。 

正如 “普通 ”代数 ( 即 我 们 在 中 学 学 的 代数 ) 有 函数 一 样 ， 布 尔 代 数 也 有 函数 。 布 尔 函 
数 可 以 有 一 个 或 多 个 输入 变量 ， 并 可 生成 一 个 只 依赖 于 这 些 变 量 值 的 函数 结果 。 例如， 我 们 
可 以 定义 一 个 简单 的 布尔 函数 1， 它 有 一 个 输入 变量 4， 当 4 为 1 时 ， 函 数值 1 (A) HO; 当 
4 为 0 时 ， 函 数值 为 1。 该 函数 就 是 图 3-2a 所 示 的 非 函 数 。 

由 于 nn 个 变量 布尔 函数 的 不 同 输入 值 的 组 合 最 多 只 可 能 有 2” 种， 其 功能 可 以 通过 一 个 
有 2" 行 的 表格 描述 清楚 ， 表 格 中 的 每 一 行 描 述 一 种 输入 组 合 对 应 的 函数 值 。 这 种 表格 称 为 真 
值 表 。 图 3-2 中 的 表格 全 都 是 真 值 表 的 例子 。 如 果 我 们 都 将 真 值 表 的 行 按 输入 值 的 (二进制 ) 
大 小 从 小 到 大 排列 ， 即 对 两 个 变量 来 说 ， 其 顺序 为 00，01，10，11， 则 每 个 函数 就 可 以 用 从 
上 到 下 读 出 真 值 表 中 的 结果 组 成 的 一 个 2 位 的 二 进 制 值 完整 描述 出 来 。 例 如 ， 与 非 门 函数 为 [50 
1110， 或 非 门 函数 为 1000， 或 门 为 0111。 显 然 ， 对 于 两 个 输入 变量 ， 只 可 能 有 16 个 布尔 函 
数 存在 ， 分 别 对 应 于 4 位 结果 串 可 能 的 16 种 组 合 。 相 反 ， 两 个 变量 的 普通 代数 函数 可 以 有 无 
穷 多 个 ， 也 不 可 能 将 其 中 的 任何 一 个 用 一 个 表格 将 所 有 可 能 的 输入 组 合 对 应 的 输出 描述 出 来 ， 
因为 它 的 每 个 输入 变量 都 可 以 对 应 无 穷 多 个 输入 值 。 

图 3-3a 是 一 个 有 三 个 输入 变量 的 布尔 函数 MA, B, C) 的 真 值 表 。 它 是 一 个 逻辑 表 
决 函 数 ， 也 就 是 说 ,输入 变量 的 值 多 数 为 0 时， 函数 的 输出 结果 为 0， 如 果 输 入 变量 多 数 为 1 
时 ， 函 数 的 输出 结果 为 1。 尽 管 任何 一 个 布尔 函数 都 可 以 用 真 值 表 来 描述 ， 但 随 着 变量 的 增 
加 ， 这 种 描述 办 法 也 越 来 越 笨 抽 。 这 样 ， 就 需要 另 一 种 描述 方法 来 代替 。 
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下 面 来 看 一 下 这 种 描述 法 的 来 历 。 我 们 注意 到 任何 布尔 函数 可 以 用 说 明 哪些 输入 组 合 可 
以 使 函数 值 为 1 来 描述 。 对 于 图 3-3a 的 函数 来 说 ， 它 有 4 种 输入 组 合 可 以 使 函数 值 M 为 1。 
习惯 上 ， 我 们 用 在 输入 变量 上 面 加 一 小 横 线 来 表示 其 值 被 求 反 ， 没 有 小 横 线 表示 其 值 为 原 值 。 
FEH, 我们 还 常用 隐 伟 的 乘 号 或 小 圆 点 来 代表 布尔 与 函数 ， 用 “+” 代 表 布 尔 或 函数 。 按 此 
规定 ，4BC 仅 在 4=1 H B=0 H. C=1 时 其 值 为 1。 而 4B+BC 只 有 在 (A=1 且 B=0) 或 (B=] 
E C=0 ) 时 为 1。 图 3-3a 中 的 使 输出 为 1 的 4 行为 : ABC. ABC. ABC 和 4BC。 如 果 这 4 种 
情况 的 任何 一 种 为 真 ， 则 函数 M 的 值 为 真 ( 即 其 值 为 1 )。 因 此 ， 我 们 可 以 将 函数 写成 如 下 
ÉR: 

M=ABC+ABC+ABC+ABC 
作为 真 值 表 的 一 种 紧凑 表示 方式 。 同 样 ， 一 个 n 个 变量 的 函数 可 以 描述 为 不 超过 2” 个 n 变量 
“ 积 ” 项 的 “和 ”。 函 数 的 这 种 公式 表示 法 十 分 重要 ， 我 们 马上 就 可 以 看 到 ， 可 以 方便 地 由 公 
式 导 出 标准 门 电 路 对 函数 的 实现 。 

在 头脑 中 牢记 抽象 的 布尔 函数 和 它 的 具体 电路 实现 的 区 别 十 分 重要 。 布 尔 函 数 由 诸如 
4、B 和 CC 之 类 的 布尔 变量 和 诸如 与 、 或 和 非 之 类 的 布尔 运算 组 成 ， 可 以 用 真 值 表 或 布尔 公 
式 ， 如 

F=ABC+ABC 
对 其 进行 描述 。 布 尔 函 数 可 以 用 表示 输入 /输出 变量 的 信号 和 与 门 、 或 门 和 非 门 等 电子 电路 
来 实现 (通常 有 和 多 种 实现 方式 )。 本 书 中 我 们 使 用 大 号 字体 的 AND、OR、NOT 来 指 布尔 运算 
符 , 小 号 字体 的 AND、OR、NOT 来 指 逻辑 门 ， 但 通常 情况 下 并 不 严格 区 分 。 
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3.1.3 布尔 函数 的 实现 


正如 上 面 所 提 到 的 ， 表 示 布 尔 函 数 的 由 不 超过 2" 个 “ 积 ” 项 组 成 的 “和 ”的 公式 可 以 直 
接 导出 一 种 实现 它 的 电路 。 以 图 3-3 为 例 ， 我 们 来 看 看 这 个 导出 过 程 。 在 图 3-3b 中 ,我 们 把 
函数 M 的 输入 变量 A. BRC 画 在 图 的 左 侧 ， 把 输出 结果 M 放 在 图 的 右 侧 。 由 于 需要 对 输入 
变量 求 补 ( 即 求 反 )， 这 是 将 三 个 输入 变量 分 别 接 到 标记 为 1、2 和 3 的 反 转 器 来 实现 的 。 为 
使 整 张 图 不 显得 混乱 ， 我 们 画 了 6 条 垂直 线 ，3 条 和 3 个 输入 变量 相连 ,另外 3 条 分 别 和 它们 
的 反 信号 相连 ， 用 这 6 条 线 来 为 后 面 的 门 提供 方便 的 输入 信号 。 例 如 ， 门 5、 门 6 和 门 7 都 
用 到 4 作为 输入 变量 。 在 实际 电路 中 ， 这 些 门 肯定 直接 和 4 进行 连接 ， 而 不 会 用 到 任何 中 间 
的 “垂直 ” 线 。 

该 电路 包含 4 个 与 门 ， 每 个 与 门 对 应 于 M 公 式 中 的 一 项 (也 就 是 真 值 表 中 结果 为 1 的 一 
行 )， 用 来 计算 真 值 表 中 的 一 行 。 最 后 ， 再 将 所 有 的 “ 积 ” 项 或 起 来 形成 最 终 的 函数 结果 。 

图 3-3b 使 用 了 一 个 贯穿 本 书 的 习惯 ， 即 两 条 线 交 又 时 ， 除 非 交 点 上 有 一 个 加 重点 ， 否 则 
两 线 是 不 相通 的 。 例 如 ， 门 3 的 输出 穿 过 了 所 有 6 条 垂直 线 ， 但 它 只 和 C 相连 。 阅 读 其 他 著 
作 时 ， 请 注意 有 些 作者 会 使 用 别 的 习惯 。 

有 了 图 3-3 的 例子 ， 如 何 用 电路 来 实现 任何 一 个 布尔 函数 的 过 程 应 该 是 清楚 的 : 

1) 写 出 该 函数 的 真 值 表 。 

2) 用 反 转 器 对 每 个 输入 变量 求 补 。 

3 ) 将 真 值 表 中 结果 为 1 的 行 对 应 的 项 分 别 用 与 门 实现 。 

4) 将 每 个 与 门 和 它 的 输入 变量 连接 起 来 。 

5 ) 将 所 有 与 门 的 输出 送 入 一 个 或 门 的 输入 。 

尽管 我 们 已 经 可 以 用 与 门 、 或 门 和 非 门 实现 所 有 的 布尔 函数 ， 但 经 常情 况 下 ， 仅 用 一 类 
简单 的 门 来 实现 就 更 方便 了 。 幸 运 的 是 , 已 经 可 以 直接 将 用 上 述 算法 实现 的 电路 转换 为 只 用 
与 非 门 或 只 用 或 非 门 来 实现 ， 我 们 所 要 做 的 只 是 找到 一 种 办 法 用 一 种 简单 的 门 来 实现 或 门 、 
与 门 和 非 门 。 图 3-4 的 上 半 部 分 说 明了 如 何 只 用 与 非 门 来 实现 这 三 种 门 ; 下 半 部 分 是 如 何 只 
用 或 非 门 来 实现 它们 。( 这 种 方案 比较 直接 ， 但 也 还 有 其 他 的 方案 。) 


图 3-4， 仅 用 与 非 门 或 者 或 非 门 构造 
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只 用 与 非 门 和 或 非 门 实现 布尔 函数 的 一 条 途径 是 先 通过 上 述 过 程 用 与 门 、 或 门 和 非 门 实 
现 该 函数 ， 然 后 ， 将 有 多 个 输入 的 门 用 相同 功能 的 双 输 入 门 代替 。 例 如 ，4+B+C+D 可 以 用 等 
WEI (A+B) +(C+D )， 即 用 三 个 双 输 入 的 或 门 来 得 到 。 最 后 ， 再 用 图 3-4 所 示 的 等 价 电路 替 
换 掉 这 些 与 门 、 或 门 和 非 门 。 

尽管 这 种 方法 得 到 的 可 能 并 不 是 最 优 的 方案 ， 即 用 到 的 门 的 数量 并 不 是 最 少 ， 但 它 确实 
给 出 了 一 种 肯定 可 行 的 解决 办 法 。 与 非 门 和 或 非 门 都 具有 完备 性 ， 因 为 仅 用 它们 中 任意 一 个 
就 可 以 实现 所 有 布尔 函数 。 再 没有 其 他 门 具有 这 个 特性 了 ， 这 也 是 选用 它们 作为 电路 的 基本 
组 成 部 分 的 另 一 个 原因 。 


3.1.4 等 价 电路 


逻辑 电路 的 设计 者 经 常 要 尽量 减少 产品 中 门 的 数量 ， 以 减少 实现 时 芯片 的 面积 、 最 小 化 
能 耗 并 提高 产品 的 速度 。 为 降低 电路 的 复杂 度 ， 设 计 者 需要 找到 另外 一 个 能 完成 和 原 电路 相 
同 功能 ， 但 使 用 的 门 更 少 的 电路 《或 者 使 用 的 门 更 简单 ， 例 如 ， 用 双 输 入 的 门 代 替 四 输入 的 
门 )。 为 寻找 等 价 电路 ， 布 尔 代数 是 一 个 有 用 的 工具 。 

我 们 用 下 面 的 例子 来 说 明 如 何 用 布尔 代数 来 简化 电路 。 图 3-5a 是 函数 AB+AC 的 逻辑 电 
路 和 真 值 表 ， 尽 管 我 们 没有 经 过 严格 的 证 明 ， 普 通 代数 中 的 许多 规律 对 布尔 代数 也 是 适用 的 。 
对 4B+4C， 就 可 以 用 分 配 律 对 其 提取 公 因 子 ， 变 成 4 (B+C), 图 3-5b 是 4 (B+C) 的 电路 和 
真 值 表 。 由 于 只 有 当 且 仅 当 两 个 函数 所 有 可 能 的 输入 对 应 的 输出 都 完全 相同 时 ， 我 们 才能 把 
它们 视 为 等 价 电路 ， 从 图 3-5 可 以 容易 地 得 到 这 两 个 函数 的 真 值 表 完全 相同 ， 所 以 它们 是 等 
价 电路 。 显 然 ， 图 3-5b 的 电路 比 图 3-5a 的 要 好 一 些 ， 因 为 它 包含 的 门 要 少 。 









































a) AB+AC b) A(B+C) 
图 3-5 ”两 个 等 价 函 数 


一 般 来 说 ， 电 路 的 设计 者 首先 将 电路 用 各 种 布尔 函数 的 定律 进行 简化 ， 得 到 它 的 更 简单 
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一 些 的 等 价 函数 。 最 后 ， 再 用 电路 实现 其 最 简 形 式 的 函数 。 

要 使 用 这 个 办 法 ， 首 先 要 有 一 些 布尔 代数 的 恒等式 ,图 3-6 给 出 了 主要 的 一 部 分 。 我 们 
可 以 发 现 一 个 有 趣 的 现象 ， 即 每 个 等 式 都 有 154 
两 种 对 称 的 形式 ， 将 它们 的 与 和 或 运算 互 
换 ， 并 同时 将 0 和 1 互 换 ， 就 可 以 从 一 个 形 
式 得 到 它 的 另外 一 个 形式 。 这 些 等 式 都 可 以 
通过 构造 它们 的 真 值 表 容易 地 得 到 证 明 。 除 
了 德 摩根 律 、 吸 收 律 、 与 形式 的 分 配 律 外 ， 
其 他 等 式 的 结果 都 是 浅显 易 懂 的 。 德 摩根 律 
可 以 扩展 到 多 于 两 个 变量 的 形式 ， 例 如 ， 
ABC=A+B+C, 

德 摩根 律 也 可 以 有 另外 一 种 表达 形式 。 A+BC=(A+B) (4+C) 
图 3-7a 中 是 与 形式 ， 在 输入 和 输出 两 端 都 加 吸收 律 A(A+B) =A 
上 由 圆圈 表示 的 反 转 器 后 ， 即 将 输入 反 转 后 
的 或 门 等 价 于 与 非 门 。 在 与 之 对 称 的 图 3-7b 
中 ， 我 们 可 以 清楚 地 看 到 ， 一 个 或 非 门 也 图 3-6 布尔 代数 中 的 一 些 等 式 
可 以 由 将 输入 反 转 后 进行 与 运算 得 到 。 将 德 
摩根 律 等 式 两 边 同 时 反 转 后 ， 我 们 可 得 到 图 3-7c 和 d， 从 中 可 以 得 到 与 门 和 非 门 的 等 价 表 示 。 
对 于 多 变量 的 德 摩根 律 ， 也 存在 类 似 的 对 应 关系 〈 例 如 , 个 输入 的 与 非 门 可 以 将 个 输入 反 
转 后 用 或 门 实现 )。 























A+B=B+A 
(A+B) +C=A+(B+C) 


AB=BA 
(AB) C=A (BC) 












A(B+C) =AB+AC 











德 摩根 律 AB=A+B 











图 3-7 一 些 门 的 等 价 形式 


利用 图 3-7 中 的 等 式 和 类 似 的 多 变量 门 的 等 式 ， 我 们 可 以 容易 地 将 真 值 表 的 “ 积 和 ” 表 
现形 式 转换 为 纯 与 非 门 或 纯 或 非 门 的 形式 。 以 图 3-8a 的 异 或 函数 为 例 ， 其 标准 的 “ 积 和 ” 电 (15S 
路 如 图 3-8b 所 示 。 为 将 其 全 部 用 与 非 门 实现 ， 可 先 将 两 个 与 门 的 输出 及 与 其 相连 的 或 门 的 输 
人 处 都 加 上 反 转 器 ， 即 成 为 图 3-8c 所 示 的 形式 ， 然 后 ， 根 据 图 3-7a， 我 们 就 可 以 得 出 图 3-8d 
的 结果 。 变 量 4 和 可 以 用 将 与 非 门 或 者 或 非 门 的 输入 连 在 一 起 后 ,分 别 以 4 和 8 为 输入 得 
到 。 需 要 指出 的 是 ， 反 转 器 可 以 随意 放 在 一 条 线 的 任何 位 置 ， 例 如 ， 图 3-8d 中 ， 可 以 是 输入 
门 的 输出 端 到 输出 门 的 输入 端的 任何 位 置 上 。 

对 等 价 电路 ， 最 后 一 点 需要 说 明 的 是 ， 用 一 个 电路 上 完全 相同 的 门 ， 只 是 改变 高 低 电 平 
和 逻辑 值 0 和 !1 之 间 的 对 应 关系 ， 它 的 运算 结果 就 完全 不 同 。 我 们 可 以 证 明 这 个 令 人 惊讶 的 
结论 。 图 3-9a 是 某 个 门 己 的 不 同 输入 对 应 的 输出 ， 其 中 的 输入 和 输出 都 是 用 电 平 值 表示 。 如 [9 
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果 我 们 采用 的 是 OV 表示 逻辑 0，1.5V 表示 逻辑 1 的 表示 方法 ， 即 常 说 的 正 逻 辑 的 话 ， 其 真 值 
表 就 如 图 3-9b 所 示 ， 门 下 是 一 个 与 门 。 然 而 ， 如 果 我 们 采用 的 是 负 逻 辑 表 示 法 ， 即 用 0V 表 
W2 1, MH 1.5V 表示 逻辑 0， 它 的 真 值 表 就 成 了 图 3-9c 所 示 的 形式 ， 门 也 就 成 了 一 个 
或 门 。 





A A 
B B 
A A 


c) d) 
图 3-8 a) 异 或 函数 的 真 值 表 ; b) ~d) 实现 异 或 函数 的 三 个 电路 





a) 某 设备 的 电子 特性 b) ER 
图 3-9 


因此 ， 电 平和 逻辑 值 之 间 的 对 应 关系 是 十 分 重要 的 。 本 书 中 除 特 别 说 明之 处 外 ， 采 用 的 
都 是 正 逻 辑 表示 法 ， 也 就 是 说 ， 逮 辑 1 、 真 和 高 电 平 是 同义词 ， 而 逻辑 0、 假 和 低 电 平 表示 的 
含义 也 相同 。 


3.2 ”基本 数字 逻辑 电路 


上 一 节 中 ， 我 们 介绍 了 如 何 用 门 电路 来 实现 真 值 表 或 其 他 的 简单 电路 。 实 际 上 ， 现 在 已 
经 很 少 真正 用 一 个 一 个 的 门 来 实现 电路 了 ， 尽 管 这 曾经 是 一 个 常用 的 办 法 。 目 前 ,构造 逻辑 
电路 的 基本 组 件 是 包含 许多 门 的 模块 。 后 面 几 节 中 ， 我 们 进一步 讨论 这 些 组 件 ， 并 详细 说 明 
它们 的 用 法 和 如 何 通 过 门 电路 来 构建 这 些 组 件 。 
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3.2.1 集成 电路 


现在 ， 已 不 再 有 人 制造 和 销售 单个 的 门 电路 了 ， 而 是 以 集成 电路 (Intergrated Circuit, 
IC) 或 集成 芯片 为 单位 制造 。 一 片 集 成 电路 是 一 小 块 方形 的 硅 片 ， 其 太 寸 和 它 用 了 多 少 个 门 
来 实现 电路 中 的 组 件 相 关 。 小 的 硅 片 有 2mm x 2mm， 而 大 的 可 达 18mm x 18mm。 如 果 需 要 
有 很 多 管 脚 来 连接 芯片 和 其 外 部 世界 的 话 ， 集 成 电路 通常 会 封装 在 比 它 本 身 大 许多 的 塑料 或 
陶瓷 外 壳 中 ， 每 个 管 脚 或 者 连接 着 芯片 上 某 个 门 的 输入 或 输出 信号 ， 或 者 连接 着 电源 或 地 。 

图 3-10 给 出 了 几 个 现在 常用 的 集成 电路 芯片 封装 方式 。 小 芯片 ， 如 家 用 微 控制 器 、RAM 
等 采用 的 是 双 排 直 插 式 封 装 ( Dual Inline Package，DIP )， 它 有 两 排 管 脚 ， 可 插入 到 母 板 的 插 
槽 内 。 常 见 的 封装 有 14、16、18、20、22、24、28、40、64 或 68 个 管 脚 。 对 大 的 芯片 ， 也 
有 四 边 都 有 管 脚 或 管 脚 在 底部 的 方形 封装 ， 其 中 最 常见 的 有 两 类 ， 即 引 脚 阵列 封装 (Pin Grid 
Array, PGA) 和 触 点 阵列 封装 (Land Grid Array, LGA), PGA 在 封装 的 底部 装 有 引 脚 ， 可 
插 和 人 到 母 板 上 对 应 的 插座 内 。 揪 座 一 般 采 用 的 是 “ 零 插 入 力 ” 方 式 ， 即 不 用 力气 就 可 将 芯片 
放 人 和 插座， 然后 用 一 个 小 的 弹力 装置 横向 将 其 推 紧 ， 使 其 固定 在 插座 中 。LGA 采用 的 是 另外 
一 种 方式 ， 在 芯片 底部 布置 的 是 平面 的 触 点 ， 对 应 的 插座 上 装 了 一 个 带 压力 的 小 盖子 ， 能 产 
生 下 压力 ， 将 芯片 压 紧 在 插座 上 ， 确保 所 有 的 触 点 接触 紧密 。 





图 3-10 集成 电路 芯片 的 常见 封装 


由 于 许多 集成 电路 的 封装 在 外 形 上 是 对 称 的 ， 所 以 向 插座 上 装 芯片 时 ， 如 何 确保 方向 正 
确 一 直 是 需要 留意 的 问题 。DIP 封装 一 般 在 芯片 的 一 端 设置 一 个 小 凹 槽 ， 插 座 上 也 对 应 地 作 
上 标记 进行 提示 。PGA 则 一 般 采 用 “ 缺 引 脚 ”的 方法 ， 当 方向 不 正确 时 ， 芯 片 不 能 插 人 到 插 
座 中 。LGA 由 于 没有 引 脚 ， 其 采用 的 方法 是 在 芯片 的 一 边 或 者 两 条 边 上 设置 一 个 四 口 ， 而 在 
插座 上 也 对 应 设置 ， 以 保证 只 有 在 方向 正确 时 芯片 才能 正确 安装 。 

我 们 当然 会 希望 ， 如 果 可 能 的 话 ， 门 的 输入 信号 一 加 上 ， 就 马上 可 以 得 到 输出 信和 号。 但 
实际 上 上， 芯片 都 有 微小 的 门 延 迟 ， 包 括 信号 在 芯片 中 的 传播 时 间 和 转换 时 间 ， 一 般 为 100 皮 
秒 到 几 纳 秒 。 

目前 的 工艺 水 平 已 经 可 以 在 单个 芯片 上 放置 10 亿 个 二 极 管 。 由 于 任何 逻辑 电路 都 可 以 
用 与 非 门 实现 ， 所 以 你 可 以 想象 由 制造 商 生产 出 的 一 个 包含 5 亿 个 与 非 门 的 非常 通用 的 芯片 。 
不 幸 的 是 ， 这 个 芯片 会 需要 1 500 000 002 个 管 脚 ， 以 标准 的 管 脚 距离 1 毫米 计算 , 采用 LGA 
方式 封装 的 这 个 芯片 边 长 需要 38 米 才 能 放下 这 些 管 脚 ， 这 会 对 它 的 销售 产生 一 些 负面 影响 。 
显然 ， 唯 一 的 办 法 就 是 利用 技术 上 的 优势 ， 设 计 出 具有 较 高 的 门 / 管 脚 比 的 逻辑 电路 来 。 下 
面 的 几 节 ， 我 们 将 讨论 一 些 简 单 的 中 等 规模 集成 电路 ， 其 内 部 通过 一 些 门 的 组 合 ， 实 现 了 特 
定 的 逻辑 功能 ， 而 要 求 的 外 部 连接 信和 号 (A) 又 比较 少 。 


3.2.2 ”组 合 逻 辑 电路 
许多 数字 逻辑 的 应 用 需要 的 电路 ， 都 有 多 个 输入 信和 号 和 多 个 输出 信号 ， 且 输出 信号 是 由 
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输入 信号 的 当前 状态 唯一 确定 。 我 们 把 它们 叫做 组 合 逻 辑 电 路 。 并 不 是 所 有 的 电路 都 有 这 种 
特性 。 例 如 ， 有 些 带 存储 器 部 件 的 电路 的 输出 同时 依赖 于 存储 器 中 存储 的 值 和 输入 变量 的 状 
态 值 。 实 现 如 图 3-3a 之 类 的 真 值 表 的 电路 是 组 合 逻 辑 电 路 的 典型 例子 。 本 节 我 们 详细 讨论 常 
用 的 几 个 组 合 逻辑 电路 。 

1. 多 路 选择 器 

在 数字 逻辑 层 ， 多 路 选择 器 电路 有 2 个 数据 输入 信号 、1 个 数据 输出 输出 信号 及 用 来 选 
择 将 哪个 数据 输入 信号 输出 的 个 控制 信和 号。 被 选中 的 输入 数据 是 通 向 输出 信号 的 “大 门 ”。 
( 即 发 送 ) 图 3-11 是 有 8 个 输入 的 多 路 选择 器 的 示意 图 。 三 个 控制 信号 A、B 和 C 译 码 产生 
一 个 3 位 二 进 制 数 ， 由 它 来 决定 将 哪个 输入 信号 放行 到 或 门 ， 并 进而 到 输出 信和 号。 不管 控制 
线 取 什么 值 ，8 个 与 门 中 总 有 7 个 的 输出 为 0， 另外 一 个 的 输出 将 和 被 选中 的 输入 信和 号 的 值 相 
同 。 控 制 信号 的 一 种 组 合 将 打开 其 中 一 个 特定 的 与 门 。 








图 3-11 8 输入 多 路 选择 器 电路 


使 用 这 个 多 路 选择 器 ， 我 们 可 以 实现 图 3-3a 的 表决 功能 ， 实 现 的 方式 如 图 3-12b 所 示 。 
对 于 A、B 和 C 的 任意 一 种 组 合 ， 将 选中 一 个 输入 信和 号， 每 个 输入 信和 号 或 者 和 Vs ( 逻辑 值 1 ) 
相连 ， 或 者 连 着 地 (逻辑 值 0 )。 连 接 算法 很 简单 : 每 个 输入 信号 D 和 真 值 表 中 第 i TREH 
同 。 图 3-3a 中 , 第 0、1、2 和 4 行 的 值 为 0， 所 以 对 应 的 输入 信和 号 被 接地 ; 其 余 行 的 值 为 1， 
故 连接 的 是 逻辑 1。 用 这 种 方式 ， 任 何 三 变量 的 真 值 表 都 可 以 用 图 3-12a 所 示 的 芯片 实现 。 

上 面 我 们 已 经 看 到 如 何 用 一 片 多 路 选择 器 从 多 个 输入 中 选 出 一 个 ， 也 知道 了 如 何 用 它 来 
实现 真 值 表 。 它 还 可 以 用 于 对 数据 进行 并 行 到 串 行 的 转换 。 将 8 位 数据 放 在 输入 信号 上 ， 然 
后 按 顺 序 将 控制 信号 从 000 到 111 (二 进 制 )， 每 步 变 换 一 次 ，8 位 数据 就 可 以 串 行 输出 到 输 
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出 信号 了 。 并 行 到 串 行 转换 的 典型 应 用 是 键盘 ， 每 次 击 键 都 隐 含 着 将 一 个 7 位 或 8 位 数 通过 
串 行 链 路 输出 ， 如 USB. 
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a) 8 输入 的 多 路 选择 器 b) 用 多 路 选择 器 实现 的 表决 器 
图 3-12 


与 多 路 选择 器 相反 的 是 多 路 输出 选择 器 ,根据 个 控制 信号 的 值 ， 将 单个 输入 信号 输出 
到 2" 个 输出 信号 之 一 上 。 若 控制 信号 的 二 进 制 值 是 x， 即 在 第 个 输出 信号 上 输出 。 

2. 译 码 器 

我 们 讨论 的 第 二 个 例子 是 译 码 器 (decoder )， 它 的 输入 是 一 个 n 位 二 进 制 数 ， 根 据 二 进 
制 的 值 将 2 个 输出 信号 中 的 一 个 选中 ( 也 就 是 将 其 置 为 1 )。 图 3-13 给 出 了 一 个 n=3 的 译 码 
器 的 示意 图 。 

译 码 器 可 以 用 在 存储 器 芯片 的 选择 上 。 例 如 ， 某 存储 器 系统 由 8 块 存储 器 芯片 组 成 ， 每 
块 存储 容量 为 236MB。 系 统 分 配给 芯片 0 的 地 址 为 0 ~ 256MB， 芯 片 1 为 256 ~ 512MB, 
并 依次 排列 下 去 。 当 主机 系统 给 存储 器 分 配 地 址 后 ， 地 址 的 高 3 位 就 要 用 来 从 8 个 芯片 中 选 
择 一 个 芯片 。 我 们 可 以 用 图 3-13 所 示 的 电路 来 实现 这 个 功能 ， 地 址 高 3 位 就 是 图 中 的 三 个 输 
人 信号 A、B 和 C。 根 据 输入 的 不 同 ，8 个 输出 信号 Do、…、D; 中 将 有 且 只 会 有 1 个 为 1。 
我 们 用 每 个 输出 信号 分 别 作为 一 块 存储 器 芯片 的 使 能 信号 ， 由 于 只 会 有 1 个 输出 信和 号 为 1， 
iH, MAA 1 块 芯片 被 选中 工作 。 

图 3-13 所 示 的 电路 的 功能 十 分 明了 。 每 个 与 门 都 有 3 个 输入 信号 ， 第 一 个 为 A 或 者 A， 
第 二 个 为 B 或 者 B,， 第 三 个 为 C 或 者 C。 这 样 ， 每 个 门将 被 三 个 输入 信号 的 一 种 组 合 使 能 ， 
例如 ， 使 能 Do KE ABC, 使 能 Di 的 是 ABC 等 。 

3. 比较 器 

另 一 个 用 途 广泛 的 电路 是 比较 器 (comparator )， 用 来 对 输入 的 两 个 字 进 行 比 较 。 图 3-14 
所 示 的 简单 的 比较 器 有 两 个 输入 A 和 B， 都 为 4 位 长 ， 若 它们 相等 ， 则 比较 器 的 结果 为 1， 
否则 为 0。 比较 器 是 以 XOR ( 异 或 门 ) 为 基础 实现 的 。 异 或 门 在 输入 信号 相同 时 的 输出 为 0， 
不 同时 输出 为 1。 若 输入 的 两 个 字 相 等 ， 则 全 部 4 个 异 或 门 的 输出 均 为 0， 再 将 这 4 个 输出 或 
起 来 ， 如 果 或 门 的 输出 还 是 0 的 话 ， 则 输入 的 两 个 字 相 等 ; 否则 就 不 相等 。 例 中 我 们 最 后 用 
了 一 个 或 非 门 将 结果 求 反 ， 即 输出 为 1 时 表示 相等 ， 为 0 表示 不 等 。 
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图 3-13 3-8 译 码 器 电路 


FRI 


A=B 


图 3-14 一 个 简单 的 4 位 比较 器 


3.2.3 算术 电路 


介绍 过 上 面 这 些 通 用 的 集成 电路 后 ， 下 面 我 们 该 讨论 一 些 用 来 进行 算术 运算 的 组 合 逻 
辑 电路 了 。 在 此 提醒 ， 组 合 逻辑 电路 的 特征 是 输出 信号 是 其 输入 信号 的 函数 ， 但 用 于 算术 运 
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算 的 电路 并 不 完全 具有 这 个 特征 。 我 们 从 一 个 简单 的 8 位 移 位 器 开始 ， 然 后 是 加 法 器 的 组 
成 结构 ， 最 后 再 讨论 在 任何 一 台 计 算 机 中 都 起 着 重要 作用 的 算术 逻辑 部 件 ALU ( Aritemetic 
Logical Unit )。 

1. 移 位 器 

我 们 首先 要 讨论 的 算术 运算 电路 就 是 一 个 8 输入 ，8 输出 的 移 位 器 (如 图 3-15 所 示 )。 
Do、…、D; 代表 8 位 输入 信号 ， 将 它们 移动 一 位 后 的 输出 结果 是 Ss、…、S7。 控 制 信号 CHR 
定 移 位 的 方向 , C 为 0 时 左 移 ， 为 1 时 右 移 。 左 移 时 ,第 7 位 补 0， 同 样 ， 右 移 时 第 0 位 补 0。 


D, D, i D, D, D, Dg D, 











S S, S, S; S, S; Se S, 
图 3-15 1 位 左 / 右 移 位 器 


我 们 来 看 移 位 器 的 工作 原理 。 请 注意 图 中 除 最 高 位 和 最 低位 外 ， 所 有 位 下 面 都 有 一 对 与 
门 。 当 C=1 时 ， 每 对 与 门 中 的 右边 那个 起 作用 ， 将 它 控制 的 输入 信号 送 入 输出 端 。 由 于 右边 
的 与 门 的 输出 连接 的 是 它 右边 的 或 门 的 输入 ,这样 ， 就 完成 了 右 移 的 功能 。 当 C=0 时 ， 每 对 
与 门 中 左边 的 那个 起 作用 ， 完 成 左 移 功 能 。 

2. 加 法 器 

一 台 不 能 做 整数 加 法 的 计算 机 几乎 是 不 可 想象 的 。 也 就 是 说 ， 完 成 加 法 运算 的 硬件 电路 
是 每 台 计 算 机 的 必 备 部 分 。1 位 整数 加 法 器 的 真 值 表 如 图 3-16a 所 示 ， 它 产生 两 个 结果 : 输入 
数据 A、B 的 和 以 及 由 此 产生 的 给 下 一 个 (左边 ) 加 法 器 的 进位 。 能 够 计算 出 结果 位 和 进位 
位 的 电路 如 图 3-16b 所 示 ， 它 常 称 为 半 加 器 (half adder )。 

尽管 半 加 器 用 来 对 两 个 多 位 的 输入 字 的 低位 求 和 已 经 是 足够 了 ， 但 在 字 中 间 的 某 一 位 肯 
定 要 出 问题 ， 因 为 它 没 有 处 理 来 自 右 边 的 进位 。 此 时 ， 就 需要 图 3-17 所 示 的 全 加 器 来 代替 半 
加 器 。 从 图 中 全 加 器 的 电路 看 ， 很 明显 它 是 由 两 个 半 加 器 组 合 而 成 的 。 只 有 在 输入 信号 A、B 
和 低位 进位 三 个 中 有 奇数 个 为 1 时 ， 其 输出 信号 “和 ” 才 为 1; 而 只 有 在 A 和 B 全 为 1( 或 
门 的 左 输 入 信号 ) 或 它们 中 只 有 一 个 为 1 但 同时 进位 (输入 ) 为 1 时 ， 它 产生 的 进位 (输出 ) 
才 为 1。 两 个 半 加 器 一 起 产生 出 “和 ”及 “进位 ”信和 号 。 

为 制造 能 对 两 个 16 位 字 求 和 的 加 法 器 ， 只 要 对 图 3-17b 所 示 的 电路 重复 16 KEIT, 1E 
何 一 位 产生 的 进位 作为 它 左 边 加 法 器 (高 一 位 ) 的 低位 进位 ， 而 最 右边 位 的 低位 进位 始终 保 
持 为 0。 这 种 加 法 器 叫做 行 波 进位 加 法 器 (ripper carry adder )， 因 为 在 最 糟糕 的 情况 下 ， 即 往 
111…111 上 加 1 时 ， 只 有 在 进位 从 最 右边 一 直行 进 到 最 左边 时 ， 加 法 才能 完成 。 没 有 这 种 延 
迟 ， 因 此 也 更 快 一 些 的 加 法 器 也 存在 ， 而 且 更 受到 大 家 欢迎 。 
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异 或 门 


> 











和 
进位 
a) 1 位 加 法 的 真 值 表 b 半 加 器 电路 
图 3-16 
进位 
(输入 ) 
A 和 
B 
进位 
(输出 
a) 全 加 器 的 真 值 表 b) 全 加 器 电路 图 
图 3-17 


我 们 举 一 个 快速 加 法 器 的 简单 例子 。 将 一 个 32 位 加 法 器 分 解 成 两 半 ， 一 半 用 来 对 低 16 
位 求 和 ， 另 一 半 对 高 16 位 求 和 。 开 始 进行 加 法 时 ， 高 16 位 加 法 器 还 不 能 工作 ， 因 为 此 时 它 
还 无 法 得 到 从 低 16 位 加 法 器 来 的 进位 。 

然而 ， 我 们 可 以 对 此 稍 加 改动 ， 用 两 个 加 法 器 对 高 16 位 求 和 来 代替 原来 的 一 个 加 法 器 对 
高 16 位 求 和 ， 这 两 个 加 法 器 可 以 并 行 工 作 。 这 样 ， 整 个 电路 由 三 个 16 位 加 法 器 组 成 : 一 个 
加 法 器 负责 对 低 16 位 求 和 ， 另 外 两 个 加 法 器 UO 和 U1， 并 行 对 高 16 位 求 和 。 给 U0 的 进位 
为 0， 给 Ul 的 进位 为 1。 现 在 ， 当 低 16 位 加 法 器 开始 运行 时 ， 这 两 个 加 法 器 也 就 可 以 开始 
TET, 但 只 有 一 个 会 产生 正确 的 结果 。16 位 加 法 完成 后 ， 得 到 了 对 高 16 位 加 法 器 的 进位 ， 
就 可 以 从 两 个 高 16 位 加 法 器 中 选择 一 个 正确 的 答案 了 。 这 种 方案 使 完成 32 位 加 法 的 时 间 减 
少 了 一 半 。 我 们 把 它 称 为 进位 选择 加 法 器 (carry select adder )。 同 理 ， 我 们 也 可 以 把 16 位 加 
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法 器 分 解 成 8 位 加 法 器 ， 再 减少 一 半 的 时 间 。 

3. 算术 逻辑 部 件 

大 多 数 计 算 机 中 都 会 有 一 个 简单 的 电路 ， 来 完成 两 个 机 器 字 的 与 、 或 和 求 和 运算 。 一 般 
来 说 ， 这 种 n 位 字 的 电路 是 由 n 个 同样 的 对 一 位 进行 运算 的 电路 组 成 的 。 图 3-18 是 这 种 电路 
的 一 个 简单 示例 ， 它 就 是 我 们 通常 所 说 的 算术 逻辑 部 件 ( Arithmetic Logic Unit, ALU), EAT 
以 根据 功能 选择 信号 Fo A F 的 值 为 00、01、10、11 的 不 同 ， 分 别 用 来 实现 4 个 功能 ， 即 A 
与 B、A 或 B、B 和 A+B。 这 里 的 A+B 指 的 是 A 和 B 的 算术 和 ， 而 不 是 逻辑 或 。 














3-18 1 位 算术 逻辑 部 件 


图 中 左下 角 有 一 个 2 位 译 码 器 ， 根 据 控 制 信号 Fo 和 Pi 产生 四 种 不 同 运算 的 使 能 信号， 
同一 时 刻 四 个 使 能 信号 中 只 有 一 个 的 输出 为 1， 这样 ， 只 有 被 选中 的 功能 的 输出 结果 才能 通 
过 最 后 的 或 门 成 为 整个 ALU 的 输出 结果 。 

左上 角 是 用 于 计算 A 与 B，A 或 B 及 B 的 逻辑 部 件 , 但 最 多 只 能 有 一 个 计算 结果 通过 最 
终 的 或 门 输出 ， 具 体 输出 哪个 运算 结果 要 根据 译 码 器 输出 的 使 能 信号 决定 。 由 于 译 码 器 的 输 
出 只 会 有 一 个 是 1, 这样， 驱动 最 终 或 门 的 四 个 与 门 只 会 有 一 个 为 1， 其 他 三 个 都 为 0, 与 A 
及 B 无 关 。 

除了 能 将 A 和 B 作为 算术 和 逻辑 运算 的 输入 外 ， 分 别 使 ENA、ENB 信号 为 0， 也 可 以 强 
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制 使 A 和 B 为 0。 置 INVA 信和 号 为 1， oe er sa re 
ENA 和 ENB 这 几 个 信和 号 的 用 途 。 通 常情 况 下 ，ENA 和 ENB #89 1, 输入 和 INVA 信号 
这 样 ， 可 将 A 和 了 B 不 做 任何 修改 输入 到 逻辑 部 件 中 。 

ALU 的 右 下 角 有 一 个 全 加 器 ， 用 于 计算 A 加 B 的 和 ， 并 可 以 处 理 进位 ， 因 为 该 图 所 示 
的 电路 最 终 显然 是 要 几 个 接 在 一 起 来 完成 全 字 运 算 的 。 我 们 把 现实 中 如 图 3-18 所 示 的 这 种 电 
路 叫做 位 片 ( bit silce ) 电路 ， 它 可 供 计算 机 的 设计 者 用 来 实现 任何 位 的 ALU。 图 3-19 就 是 
一 个 用 8 片 1 位 ALU 位 片 实现 的 8 位 ALU。 其 中 的 INC 信号 只 对 加 法 运算 起 作用 ， 可 以 使 
运算 结果 自 增 ( 也 就 是 加 1 )， 这 可 用 来 计算 AH 及 A+B+1 等 的 和 。 

数 年 前 ， 位 片 电路 是 一 个 你 确实 能 买 到 的 芯片 。 现 在 ， 位 片 电路 更 像 是 计算 机 辅助 设计 
程序 中 的 一 个 芯片 库 ， 芯 片 设计 师 可 将 其 复制 他 想 要 的 份 数 ， 生 成 输出 文件 ， 提 交 给 生产 芯 
片 的 机 器 。 但 位 片 设计 的 思路 依然 存在 。 

A, B, A, Bg A, B, A, B, AGB, 


A 1 iat 1- ta 1-bit 1-bit 1-bit NG 
a ALU ALU ALU 
O, O, O, 


F, Fo 











进位 ”进位 
(输入 ) (输出 ) 
图 3-19 由 8 个 1 位 ALU 位 片 连接 构成 的 8 位 ALU。 为 简化 起 见 ， 使 能 和 反 转 信号 没 在 图 中 夯 出 


3.2.4 时钟 


许多 数字 电路 对 事件 发 生 的 时 间 顺 序 有 着 严格 的 要 求 。 有 时 ， 某 个 事件 必须 在 另 一 个 
事件 之 前 发 生 ， 有 时 两 个 事件 必须 同时 发 生 。 为 使 设计 者 能 实现 这 些 时 间 上 的 要 求 ， 大 多 
数 数 字 电 路 用 时 钟 (clock ) 来 提供 同步 信号 。 这 里 所 说 的 时 钟 ， 是 一 种 特定 的 电路 ， 它 
能 发 出 一 系列 的 脉冲 ， 脉 冲 的 宽度 相同 ， 两 个 连续 脉冲 之 间 的 间隔 也 完全 一 致 。 我 们 把 两 
个 连续 脉冲 之 间 相 应 边沿 的 时 间 间 隔 叫做 时 钟 周期 ( clock cycle time )。 脉 冲 的 频率 一 般 为 
100MHz ~ 4GHz， 对 应 的 时 钟 周 期 为 10ns ~ 250ps。 为 提高 时 钟 的 精度 ， 时 钟 频率 通常 由 晶 
振 控制 。 

计算 机 中 的 许多 事件 可 能 发 生 在 一 个 时 钟 周期 ， 如 果 这 些 事件 之 间 还 存在 特定 的 顺序 的 
话 ， 就 必须 将 时 钟 周期 进一步 分 解 成 子 时 钟 周期 。 除 了 提高 主 时 钟 周 期 的 频率 外 ， 另 外 一 种 
常用 的 解决 办 法 是 在 主 时 钟 周期 上 接 出 一 个 信号 ， 并 在 其 上 插 人 一 个 电路 ， 使 时 钟 延 时 一 个 
已 知 的 延迟 ， 这 样 ， 就 可 以 产生 一 个 与 主 时 钟 有 一 定 延 迟 的 副 时 钟 信 号 ， 如 图 3-20a 所 示 。 
如 此 ， 图 3-20b 所 示 的 时 序 图 就 可 以 对 不 同 的 事件 提供 4 种 时 钟 信号; 

1) Cl 的 上 升 沿 。 

2) Cl 的 下 降 沿 。 

3) C2 的 上 升 沿 。 

4) C2 的 下 降 沿 。 

将 不 同 的 事件 由 不 同 的 时 钟 沿 触发 ， 就 可 以 保证 事件 之 间 所 需要 的 顺序 关系 。 如 果 一 个 
时 钟 周期 内 的 事件 不 止 4 个 ， 还 可 以 通过 从 主 信号 中 生成 其 他 不 同 延迟 的 副 时 钟 信号 来 得 到 。 
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a) 时 钟 发 生 器 b) 时 钟 时 序 图 c) 不 对 称 时 钟 信号 的 产生 


有 些 电路 中 ， 事 件 被 安排 在 一 段 时 间 内 ， 而 不 是 在 时 钟 信号 发 生变 化 的 那个 时 刻 触发 。 
比如 ， 某 事件 可 以 在 C1 为 高 时 的 任何 时 候 发 生 ， 而 不 是 准确 地 发 生 在 Cl 的 上 升 沿 ; 另 一 个 
事件 却 只 能 在 C2 为 高 的 时 候 发 生 。 如 果 需 要 两 个 以 上 的 时 间 间 隔 ， 可 以 通过 多 个 时 钟 信 号 提 
H, 或 者 使 两 个 时 钟 信 和 号 的 高 状态 在 时 间 上 部 分 重 倒 。 后 一 种 情况 下 ， 可 提供 4 个 不 同 的 时 
BH eCa, 全 与 G23; C15 QuUkR-c1 C 

另外 ， 如 果 时 钟 信号 在 高 位 状态 和 低位 状态 花费 的 时 间 相 同 ， 我 们 称 为 对 称 的 ， 如 图 3-20b 
所 示 。 需 要 生成 非 对 称 时 钟 信号 的 话 ， 可 将 原 时 钟 信号 延 时 一 段 后 ， 再 和 它 自 己 做 与 操作 ， 如 
图 3-20c 中 的 信号 C 一 样 。 


3.3 内 存 


任何 一 台 计 算 机 都 不 能 没有 内 存 。 离 开 了 内 存 ， 也 就 不 存在 我 们 现在 所 说 的 计算 机 。 它 
用 来 存放 计算 机 执行 的 指令 和 执行 指令 用 到 的 数据 。 以 后 的 几 小 节 中 ， 我 们 将 从 门 开 始 讨论 
内 存 系统 的 基本 构成 ， 了 解 其 工作 原理 ， 并 说 明 如 何 由 这 些 组 件 组 成 大 的 内 存 系统 。 


3.3.1 锁 存 器 


要 得 到 1 位 的 内 存 ， 我 们 需要 一 个 能 以 某 种 方式 “ 记 住 ”上 一 个 输入 值 的 电路 。 这 样 的 
电路 可 以 由 两 个 或 非 门 构成 ， 如 图 3-21a 所 示 。 当 然 ， 类 似 功 能 的 电路 也 可 以 用 与 非 门 来 实 
现 。 由 于 这 两 种 实现 方式 在 概念 上 没有 什么 不 同 ， 以 后 我 们 将 不 再 对 此 进行 深入 讨论 。 





a) 输出 状态 为 0 的 或 非 门 锁 存 器 b) 输出 状态 为 1 的 或 非 门 锁 存 器 c) 或 非 门 真 值 表 
图 3-21 


我 们 把 图 3-21a 所 示 的 电路 称 为 SR 锁 存 器 (SR latch )。 它 有 S 和 有 两 个 输入 信号 ，S 
用 来 设置 锁 存 器 ，R 用 来 重新 设置 (也 就 是 清除 ) 锁 存 器 。 它 的 输出 信号 也 是 两 个 ， 一 个 是 
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Q， 男 一 个 是 Q， 下 面 我 们 马上 要 讲 到 ， 这 两 个 输出 值 互 补 。 和 组 合 逻 辑 电路 不 同 ， 锁 存 器 的 
输出 不 仅 与 当前 输入 的 值 有 关 ， 还 和 它 的 上 一 个 状态 有 关 。 

我 们 来 看 一 看 为 什么 会 是 这 种 情况 首先 假定 S 和 及 都 为 0， 这 是 它们 经 常 所 处 的 状态 。 
也 许 会 引起 争论 ， 但 我 们 还 是 先 假定 Q 也 为 0。 由 于 Q 要 被 反馈 回 上 面 的 那个 或 非 门 ， 使 该 或 
非 门 的 输入 都 为 0， 所 以 ， 其 输出 Q 应 该 为 1。1 再 被 反馈 回 到 下 面 的 或 非 门 后 ， 这 个 或 非 门 的 
输入 一 个 是 0， 另 一 个 为 1， 所 以 Q 还 保持 为 0。 至 少 这 个 状态 是 稳定 的 ， 正 如 图 3-21a 所 示 。 

现在 我 们 再 来 考虑 Q 不 为 0， 即 Q 为 1 的 情况 ， 此 时 还 假定 R 和 S$ HO, 上面 的 或 非 门 
的 输入 一 个 为 0， 另 一 个 为 1， 其 输出 Q 应 为 0。 将 Q 反馈 回 下 面 的 或 非 门 后 ， 整 个 锁 存 器 
也 处 于 图 3-21b 所 示 的 稳定 状态 。 在 输入 R 和 8S 都 为 0 的 情况 下 ， 两 个 输出 都 为 0 的 状态 是 
不 稳定 的 ， 因 为 它 的 前 提 条 件 是 两 个 门 的 两 个 输入 都 为 0， 而 如 果真 是 如 此 的 话 ， 它 们 的 输 
出 将 为 1 而 不 是 0。 与 此 类 似 ， 两 个 输出 均 为 1 的 情况 也 是 不 可 能 的 ， 因 为 这 需要 使 两 个 门 
的 输入 都 是 0 和 1， 这 样 产生 的 输出 将 为 0， 而 不 会 是 1。 由 此 ， 我 们 可 以 得 到 如 下 结论 : 当 
R=S=0 时 ， 根 据 其 上 一 个 状态 Q 的 不 同 ， 锁 存 器 有 两 个 稳定 的 状态 。 

那么 ， 输 入 的 变化 会 对 锁 存 器 的 状态 产生 什么 影响 呢 ? 我 们 来 看 在 Q=0 时 将 S 变 为 1 的 
情况 。 此 时 ， 上 面 那个 或 非 门 的 输入 分 别 为 1 和 0， 使 得 其 输出 Q 变 为 0。 这 个 改变 又 使 得 
下 面 那 个 门 的 输入 全 为 0， 使 其 输出 变 为 1。 也 就 是 说 ,设置 S$ (即使 其 值 为 1 ) 将 锁 存 器 的 
状态 从 0 变 为 1。 当 锁 存 器 状态 为 0 时 将 及 置 为 1 对 其 无 影响 ， 因 为 下 面 的 或 非 门 对 于 输入 
10 和 11 的 输出 都 是 0。 

同样 原因 ， 当 锁 存 器 状态 为 1 (Q=1 ) 时 将 S 置 为 1 对 锁 存 器 没有 影响 ， 但 此 时 将 RR 置 
为 1 将 使 锁 存 器 状态 变 为 0。 总 之 , BS 置 为 1 时 ， 锁 存 器 输出 状态 将 为 1， 而 不 管 它 的 上 一 
个 状态 是 什么 ; 将 RR 置 为 1， 锁 存 器 将 输出 0。 该 电路 能 够 “记忆 ”上 次 是 置 $ 还 是 置 R。 我 
们 正好 用 它 的 这 个 特性 来 制造 计算 机 的 内 存 。 

1. 时 钟 SR 锁 存 器 

如 果 能 使 锁 存 器 只 在 某 些 特定 时 间 改 变 状 态 ， 将 带 给 我 们 很 大 的 方便 。 为 达到 这 个 目的 ， 
我 们 对 上 面 的 电路 做 一 些 轻 微 变 动 ， 就 成 了 时 钟 SR 锁 存 器 (clocked SR latch )， 如 图 3-22 所 示 。 

该 电路 增加 了 一 个 时 钟 作为 额外 输入 ， 它 通常 为 0。 时 钟 信 号 为 0 时 ,不 管 $S 和 有 如何 
变化 ， 两 个 与 门 的 输出 都 是 0， 不 会 改变 锁 存 器 的 状态 。 当 时 钟 信号 为 1 时 ， 它 对 与 门 的 影 
响 消失 ， 锁 存 器 才能 对 S 和 R 的 变化 起 反应 。 值 得 指出 的 是 ， 尽 管 名 字 是 时 钟 SR 锁 存 器 ， 
但 时 钟 信号 并 不 一 定 要 由 计算 机 上 真正 的 时 钟 信号 来 驱动 。 我 们 也 常用 术语 使 能 (enable) 和 
选 通 (strobe) 来 说 明 它 为 1， 即 此 时 S AI R 的 变化 可 改变 锁 存 器 的 状态 。 

到 此 为 止 , 我 们 一 直 小 心地 掩盖 着 一 个 问题 ， 即 如 果 S 和 RR 都 为 1 时 会 发 生 什么。 理由 
很 充分 : 在 这 两 个 输入 最 终 都 成 为 0 之 前 ， 电 路 的 状态 将 无 法 确定 。 在 S=R=1 时 ， 唯 一 的 稳 
定 态 是 Q=Q=0， 但 当 输入 变 回 0 时 ， 锁 存 器 将 立即 跳 转 到 它 的 两 个 稳定 态 中 的 一 个 。 如 果 有 
一 个 输入 变化 得 比 另 一 个 早 一 些 ， 则 另 一 个 保持 为 1 的 输入 将 取得 胜利 ， 因 为 将 由 它 来 确定 
锁 存 器 的 状态 。 如 果 两 个 输入 同时 变 为 0 ( 这 很 难 发 生 )， 锁 存 器 将 随机 跳 转 到 一 个 稳定 态 。 

2. 时 钟 D 锁 存 器 

解决 SR 锁 存 器 存在 的 不 确定 状态 ( 由 于 S=R=1 而 引起 的 ) 的 一 个 好 办 法 是 防止 这 种 情 
况 出 现 。 图 3-23 给 出 的 锁 存 器 电路 只 有 一 个 输入 D。 由 于 下 面 的 与 门 的 输入 总 是 上 面 那个 与 
门 的 输入 的 相反 值 ， 所 以 两 个 输入 同时 为 1 的 情况 将 永远 也 不 可 能 发 生 。 当 D=1 且 时 钟 信号 
为 1 时 ， 锁 存 器 的 状态 为 Q=1。 当 D=0 上 且 时 钟 信 号 为 1 时 ， 它 的 状态 将 被 置 为 Q=0。 换 句 话 
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说 ， 当 时 钟 信号 为 1 时 ，D 的 当前 值 被 采样 并 存储 到 锁 存 器 中 。 我 们 把 这 个 电路 称 为 时 钟 D 
锁 存 器 (clocked D latch )， 它 是 真正 意义 上 的 1 位 内 存 。 存 放 在 里 面 的 值 总 可 以 从 Q 中 得 到 。 
要 将 DD 的 当前 值 写 到 内 存 中 ， 只 需 在 时 钟 信 号 上 加 一 个 正 脉冲 。 


S 一 


mek TL 


图 3-22 时钟 SR 锁 存 器 图 3-23 ”时钟 D 锁 存 器 


实现 这 个 电路 需要 11 个 晶体 管 。 达 到 同样 功能 的 更 复杂 ( 但 更 不 直观 ) 一 些 的 电路 最 少 
只 要 6 个 晶体 管 。 现 实 中 ， 这 种 电路 也 被 广泛 采用 。 显 然 ， 在 电源 ( 图 3-23 中 未 标 出 ) 能 保 
持 的 情况 下 ， 该 电路 一 直 能 保持 稳定 状态 。 下 面 我 们 将 看 到 一 些 内 存 电路 ， 它 们 会 很 快 “ 忘 
掉 ” 其 状态 ， 除 非 定 时 以 某 种 方式 “提醒 ” 它 。 


3.3.2 ”触发 器 


许多 电路 中 ， 必 须 在 特定 的 时 刻 对 某 个 信号 采样 并 加 以 存储 。 我 们 把 这 种 存储 触发 方式 
的 内 存 叫做 触发 器 ( flip-flop )， 它 的 状态 转变 不 是 发 生 在 时 钟 信号 为 1 时 ， 而 是 发 生 在 时 钟 
信号 从 0 变 为 1 (上升 沿 ) 或 从 1 变 为 0( 下 降 沿 ) 的 时 候 。 这 样 ， 时 钟 信号 的 脉冲 长 度 就 不 
重要 了 ， 重 要 的 是 脉冲 的 变化 要 足够 快 。 

需要 强调 的 是 锁 存 器 和 触发 器 之 间 的 区 别 。 触 发 器 用 的 是 边沿 触发 ， 而 锁 存 器 用 的 是 电 
平 触发 。 但 是 ， 尽 管 如 此 ， 这 两 个 术语 还 常常 在 文字 上 被 混淆 ， 许 多 作者 在 说 明 锁 存 器 时 却 
用 “触发 器 "， 或 者 相反 。 

设计 触发 器 可 以 有 许多 方案 。 例 如 ， 如 果 有 某 种 办 法 在 时 钟 信号 的 上 升 沿 产生 一 个 很 短 
的 脉冲 ， 再 把 这 个 脉冲 输入 到 D 锁 存 器 中 就 可 以 了 。 图 3-24a 就 给 出 了 这 么 一 个 电路 。 





ah 
a) 脉冲 发 生 器 b) 电路 中 4 个 点 的 脉冲 图 


图 3-24 


乍 一 看 ， 图 中 与 门 的 输出 将 永远 是 0， 因 为 任何 信号 和 它 的 反 相 与 的 结果 都 将 为 0， 但 实 
际 情 况 有 一 些微 小 的 不 同 。 反 转 器 有 一 个 微小 的 、 但 不 为 0 的 传输 延迟 ， 正 是 该 延迟 使 得 电 
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路 的 功能 得 以 实现 。 假 定 我 们 在 4 个 监测 点 a、b、c 和 4 测量 电压 ， 那 么 ,在 4 测量 到 的 输 
入 信号 是 一 个 长 的 时 钟 脉冲 ， 如 图 3-24b 的 底部 所 示 。 在 5 测量 到 的 结果 在 它 的 上 面 。 请 注 
意 ， 该 信号 已 经 被 反 转 ， 并 有 少许 的 延迟 ， 一 般 是 几 百 个 皮 秒 ， 根 据 所 用 反 转 器 的 类 型 不 同 
而 有 所 不 同 。 

c 点 的 信号 也 有 一 点 点 延迟 ， 但 只 是 信号 的 传播 时 间 ( 以 光速 传播 )。 假 如 a 和 < 之 间 的 
物理 距离 是 20nm， 那 么 传播 时 间 将 是 0.000 1 纳 秒 ， 与 信号 通过 反 转 器 的 传播 时 间 相 比 就 微 
不 足 道 了 。 也 就 是 说 ， 不 管 从 哪个 方面 讲 ，c 点 的 信号 可 以 说 是 与 a 点 的 信号 完全 相同 。 

当 与 门 的 输入 信号 5 和 < 与 在 一 起 ， 输 出 的 将 会 是 图 3-24b 所 示 的 短 脉 冲 ， 其 脉冲 的 宽 
E A 等 于 反 转 器 的 延迟 ， 一 般 来 说 是 5 纳 秒 或 更 少 一 些 。 与 门 的 输出 即 是 这 个 脉冲 对 与 门 的 
延迟 ， 如 图 3-24b 的 顶部 所 示 。 这 些 时 间 上 的 后 移 即 意味 着 在 时 钟 信号 的 上 升 沿 之 后 一 定时 
间 ，D 锁 存 器 将 被 激活 ， 但 对 原始 的 时 钟 脉冲 的 宽度 没有 影响 。 对 10 纳 秒 存储 周期 的 内 存 来 
说 ，1 纳 秒 的 脉冲 来 告诉 何 时 对 输入 信号 D 采样 应 该 是 足够 短 了 。 整 个 电路 可 以 用 图 3-25 来 
表示 。 值 得 一 提 的 是 这 种 触发 器 的 设计 易于 理解 ， 但 现实 中 常用 的 触发 器 要 比 这 个 复杂 。 
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图 3-25 D 触发 器 


图 3-26 给 出 了 锁 存 器 和 触发 器 的 标准 符号 。 其 中 图 3-26a 是 一 个 锁 存 器 ， 当 时 钟 信 和 号 
CK 为 1 时 ， 可 以 改变 其 状态 ; 与 之 相反 ， 图 3-26b 的 时 钟 信号 通常 为 1， 只 在 它 的 电 平 降 为 
0 时 ， 才 可 保存 D 上 的 信号。 图 3-26c 和 d 所 示 的 是 触发 器 而 不 是 锁 存 器 。 图 3-26c 的 状态 
在 时 钟 的 上 升 沿 (从 0 变 为 1) 改变 ， 图 3-26d 在 下 降 沿 (从 1 变 为 0) 改变 。 很 多 ， 但 也 不 
ig kth ee a Q， 有 些 还 有 另外 两 个 输入 管 脚 :Set 或 Preset， 用 来 强制 

，Reset 或 Clear 用 来 强制 Q=0。 


Sep tt 


图 3-26 D 锁 存 器 和 触发 器 的 符号 


3.3.3 ”寄存 器 


多 个 触发 器 可 组 合 在 一 起 ， 构 成 寄存 器 ,来 保存 超过 1 位 长 的 数据 。 图 3-27 给 出 了 8 个 
触发 器 连接 在 一 起 构成 一 个 可 存储 8 位 数据 的 寄存 器 的 方式 。 当 时 钟 信号 CK 跳 变 时 ， 寄 存 
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器 接受 8 位 的 输入 值 (I0 ~ 17 )。 为 实现 该 寄存 器 ， 要 将 8 个 寄存 器 的 时 钟 信号 连接 同一 个 输 
入 信号 CK， 这 样 来 保证 CK 跳 变 时 ， 整 个 寄存 器 可 接收 输入 总 线 上 新 的 8 位 数据 。 触 发 器 本 
身 是 图 3-26d 那 种 类 型 ， 但 触发 器 上 的 反 转 作用 被 和 时 钟 信号 CK 连接 的 反 转 器 取消 了 ， 所 
以 触发 器 会 在 时 钟 的 上 升 沿 装 人 数据 。8 个 清除 信号 也 被 连 在 一 起 ， 所 以 当 清 除 信号 CLR Æ 


为 0 时 ， 所 有 8 个 触发 器 的 值 都 被 置 为 0。 也 许 你 会 想 为 什么 对 时 钟 信 号 CK 进行 反 转 ， 又 在 


每 个 触发 器 上 将 其 反 转 回来 ， 这 是 因为 管 脚 的 输入 信号 也 许 没有 足够 的 电流 来 驱动 所 有 的 8 
个 触发 吉 ， 输 入 信和 号 的 反 转 器 其 实 是 用 来 作 放 大 器 使 用 的 。 

8 位 寄存 器 设计 完成 后 ， 我 们 就 可 以 用 它 作 为 模块 来 构造 容量 更 大 的 寄存 器 了 。 例 如 ， 
将 两 个 16 位 寄存 器 的 时 钟 信号 CK 及 清除 信号 CLR 连接 起 来 ， 就 可 组 成 一 个 32 位 寄存 期 。 
第 4 章 中 我 们 再 进一步 讨论 寄存 器 及 其 用 途 。 











图 3-27 由 单个 触发 器 构成 的 8 位 寄存 器 


3.3.4 内存 组 成 


到 现在 为 止 ， 尽 管 我 们 已 经 从 图 3-23 所 示 的 简单 的 1 位 内 存 进步 到 图 3-27 所 示 的 8 位 内 
存 ， 但 大 容量 的 内 存 采 用 的 是 另外 一 种 不 同 的 组 织 方 式 ， 即 为 每 个 内 存 字 进行 编 址 。 图 3-28 
即 是 能 满足 这 个 要 求 且 广泛 使 用 的 内 存 组 成 方式 。 图 3-28 中 的 内 存 系统 有 4 个 字 长 为 3 位 的 
字 ， 对 内 存 的 每 次 读 写 操作 都 针对 其 中 一 个 完整 的 3 位 字 进 行 。 尽 管 全 部 只 有 12 位 的 内 存 空 
间 无 法 和 前 面 的 8 位 触发 器 相 比 ， 但 它 需 要 的 管 脚 数 比 较 少 ， 而 且 ， 重 要 的 是 ， 这 种 方案 可 
以 方便 地 扩展 成 大 容量 的 内 存 系统 。 值 得 注意 的 是 ， 内 存 字 的 数量 总 是 2 的 整数 倍 。 

图 3-28 所 示 的 内 存 看 起 来 可 能 很 复杂 ， 但 由 于 它 的 结构 很 有 规律 ， 实 际 上 十 分 简单 。 它 
共有 8 根 输入 信和 号 线 和 3 根 输出 信号 线 ， 输 入 信号 中 有 三 个 是 数据 ， 即 o hA b; MAE 
址 信号 A 和 Al ; 还 有 三 个 是 控制 信号 : CS 为 片 选 信号 ，RD 用 来 区 分 是 读 还 是 写 操作 ，OE 
是 输出 使 能 信和 号。 三 个 输出 信号 都 是 输出 的 数据 ， 即 0。、O1 和 O0;。 有 趣 的 是 ， 这 个 12 位 的 
存储 器 比 起 前 面 介绍 的 8 位 寄存 器 所 需要 的 管 脚 还 更 少 。 加 上 电源 和 地 信和 号，8 位 寄存 器 需要 
20 个 管 脚 ， 而 12 位 的 存储 器 仅 需要 13 个 信号 。 其 原因 在 于 内 存单 元 的 输出 是 共享 管 脚 的 ， 
在 本 例 中 ,每 4 个 内 存单 元 共享 一 个 输出 管 脚 。 地 址 信和 号 决定 了 到 底 对 哪个 内 存 字 进行 输入 
或 输出 操作 。 

为 选中 这 个 内 存 块 ， 还 需要 外 部 电路 来 设置 CS 信和 号 为 高 ， 并 在 读 内 存 时 将 RD 信和 号 设置 
为 高 (2H 1 )， 写 内 存 时 将 其 设置 为 低 (逻辑 0 )。 两 个 地 址 信号 也 必须 设置 好 ， 指 明 被 读 写 
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的 是 四 个 3 位 字 中 的 哪 一 个 字 。 对 于 读 操 作 ， 不 使 用 数据 输入 信和 号， 而 是 将 被 选中 的 字 放 置 
到 数据 输出 信号 上 。 对 于 写 操作 ， 输 入 数据 被 写 人 到 指定 的 内 存 字 中 ， 不 使 用 数据 输出 信和 号。 


输入 数据 
L 


ry} ited 
| 选择 信号 ris Lee Ea eis 
| 


CS 





OE 输出 使 能 信号 -CS-RD-OE 


图 3-28 一 个 4x3 存储 器 的 逻辑 示意 图 。 每 行 是 4 个 3 位 字 中 的 一 个 。 读 写 操作 均 对 整个 字 进 行 


下 面 ， 我 们 再 对 图 3-28 作 进一步 分 析 ， 来 看 看 它 的 工作 原理 。 图 3-28 中 所 示 的 内 存 左 
边 四 个 用 来 选择 字 的 与 门 构成 了 一 个 译 码 器 。 与 门 的 输入 信号 上 加 了 反 转 器 ， 以 保证 地 址 不 
同时 只 有 其 中 一 个 与 门 的 输出 为 高 。 这 四 个 与 门 各 驱动 一 个 字 选 择 信号 ， 从 上 到 下 ， 分 别 是 
第 0、1、2 和 3 个 字 。 当 芯片 被 选中 做 写 操作 时 ， 垂 直线 上 标 有 CS RD 的 信号 为 高 ， 与 选 
中 字 的 信号 一 起 ， 使 四 个 用 来 控制 读 写 信号 的 与 门 中 的 一 个 输出 为 高 ， 再 用 这 个 信号 来 驱动 
被 选中 的 字 的 CK 信和 号， 将 输入 线 上 的 数据 装 和 人 到 该 字 的 触发 器 中 。 只 有 当 CS HRA RD 为 
低 时 ， 写 操作 才能 进行 ， 而 且 也 只 是 对 被 A 和 Ai 选中 的 字 才 会 被 写 ， 其 他 的 字 绝 对 不 会 被 
改变 。 
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读 操作 和 写 操作 基本 类 似 。 地 址 译 码 部 分 和 写 操作 完全 相同 。 但 这 时 CS RD 信号 为 
低 ， 因 此 所 有 写 门 的 输出 都 为 低 ， 任 何 触发 器 中 的 内 容 都 不 会 改变 。 同 时 ， 选 中 字 的 信号 和 
被 选中 的 字 的 Q 位 与 在 一 起 ， 这 样 ， 被 选中 的 字 就 可 将 它 的 数据 输出 到 图 3-28 中 底部 的 四 输 
人 或 门 中 ， 而 其 他 三 个 字 此 时 的 输出 都 为 0， 故 或 门 的 输出 和 被 选中 的 字 中 存放 的 数据 完全 
相同 ， 其 他 三 个 未 被 选中 的 字 对 输出 毫 无 影响 。 

我 们 设计 的 这 个 电路 中 ， 三 个 或 门 的 输出 仅 和 三 个 数据 输出 线 相 连 , 但 这 样 做 有 时 也 会 
带 来 问题 。 特 别 是 ， 我 们 设计 的 输入 数据 和 输出 数据 用 的 信号 线 是 不 一 样 的 ， 但 在 实际 的 内 
存 芯 片 中 ， 输 入 数据 和 输出 数据 使 用 的 是 同样 的 管 脚 。 如 果 我 们 简单 地 将 或 门 连接 到 输出 数 
据 线 上 ， 世 片 将 输出 数据 ， 也 就 是 说 ， 在 对 内 存 进 行 写 操作 的 时 候 ， 使 输出 线 上 的 数据 成 为 
选 定 字 中 存放 的 值 ， 这 样 做 会 干扰 输入 数据 。 因 此 ， 就 急需 一 种 办 法 ,在读 操作 时 将 或 门 和 
输出 数据 线 相 连 ， 但 在 写 操作 时 将 它们 完全 断 开 。 实 际 上 ， 我 们 需要 的 是 一 个 电子 开关 ， 它 
要 能 在 几 个 纳 秒 间 完成 开关 动作 。 

幸运 的 是 ， 这 种 开关 是 存在 的 。 图 3-29a 给 出 了 非 反 向 缓冲 器 ( noinverting buffer) 的 符 
号 。 它 有 一 个 数据 输入 、 一 个 数据 输出 和 一 个 控制 信号 。 当 控制 信号 为 高 时 ， 该 缓冲 器 就 像 
一 根 导线 ， 如 图 3-29b 所 示 ; 而 当 控 制 信 和 号 为 低 时 ， 缓冲 器 像 一 根 断 开 的 导线 ， 如 图 3-29c 所 
示 ， 就 好 像 有 人 用 钳子 将 它 从 中 剪断 一 样 。 但 是 ， 只 需 将 控制 信号 重 置 为 高 ， 缓 冲 器 的 导 通 
性 能 又 能 在 几 个 纳 秒 内 恢复 。 


输入 数据 ~、 输 出 数据 
i < yo 1 


控制 信号 
a) 非 反 向 缓冲 器 b) 控制 信号 为 高 时 a) 的 功能 oO 控制 信号 为 低 时 a) 的 功能 d) 反 向 缓冲 器 
图 3-29 


图 3-29d 给 出 的 是 一 个 反 向 缓冲 器 (inverting buffer )。 当 控制 信号 为 高 时 ， 它 就 是 一 个 
普通 的 反 转 器 ; 而 控制 信和 号 为 低 时 ， 它 的 输出 和 电路 处 于 断 开 状 态 。 上 述 这 两 个 缓冲 器 都 是 
三 态 器 件 (tri-state device )， 因 为 它们 可 以 输出 0、1 和 非 0 非 1( 电 路 开路 ) 三 种 输出 状态 。 
缓冲 器 也 可 以 对 信号 进行 放大 ， 这 样 ， 它 可 以 同时 驱动 多 个 器 件 的 输入 。 有 了 时， 使 用 缓冲 器 
仅仅 就 是 由 于 这 个 原因 ， 而 和 它 的 开关 特性 无 关 。 

让 我 们 回 到 内 存 电 路 ， 现 在 该 清楚 为 什么 要 在 数据 输出 线 上 采用 非 反 向 缓冲 器 了 。 当 
CS, RD 和 OE 均 为 高 时 ， 和 输出 使 能 信号 也 将 为 高 ， 使 缓冲 器 将 选中 的 字 中 的 数据 输出 到 输出 
线 上 。 当 这 三 个 信和 号 中 的 任何 一 个 为 低 时 ， 数据 输出 线 将 和 其 他 电路 断 开 。 


3.3.5 ”内 存 芯 片 


图 3-28 中 内 存 的 优点 是 它 能 十 分 容易 地 扩展 到 更 大 的 容量 。 我 们 在 图 3-28 中 画 出 的 是 
一 个 4x3 位 的 内 存 ， 即 它 有 4 个 字 ， 每 个 字 有 3 位 。 为 将 其 扩展 到 4x 8 位， 只 需 男 加 5 列 ， 
每 列 4 个 触发 避 ， 同 时 再 增加 5 条 输入 数据 信号 和 5 条 输出 数据 信号 。 而 从 4x3 位 扩展 到 
8x3 位 的 话 ， 就 只 需 加 4 行 ， 每 行 3 个 触发 器 ， 并 增加 地 址 线 A2。 使 用 这 种 结构 ， 内 存 中 
的 字数 最 好 是 2 的 整数 倍 ， 以 达到 最 大 的 利用 率 ， 但 字 中 的 位 数 就 可 以 是 任意 的 了 。 

由 于 集成 电路 技术 十 分 适合 用 来 制造 内 部 为 重复 二 维 结构 的 芯片 ， 所 以 内 存 太 片 是 它 的 
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理想 应 用 。 随 着 技术 水 平 的 提高 ， 可 集成 在 一 片 芯 片 内 的 位 数 持续 增长 ， 一 般 每 18 个 月 翻 一 
E (摩尔 定律 )。 但 由 于 选用 内 存 芯片 要 在 容量 、 速 度 、 电 源 、 价 格 和 接口 方便 等 几 个 方面 考 
虑 ， 所 以 大 容量 的 芯片 并 不 总 是 能 完全 取代 小 容量 的 芯片 。 一 般 来 说 ， 市 场 上 销售 的 最 大 容量 
的 芯片 将 以 较 高 利润 水 平 销售 ， 因 此 ， 每 位 的 价格 将 比 旧 的 、 容 量 小 的 芯片 的 每 位 价格 要 高 。 

对 给 定 容量 的 内 存 ， 可 以 有 多 种 构成 芯片 的 方法 。 图 3-30 给 出 了 4M 位 芯片 的 两 种 组 成 
方式 : 512K x 8 和 4096K x 1。( 顺便 提 一 下 ， 内 存 芯 片 的 大 小 通常 以 位 为 单位 ， 而 不 是 以 字 
节 为 单位 ， 所 以 我 们 在 此 也 遵照 这 个 原则 。) 图 3-30a 中 ， 需 要 19 根 地 址 线 来 对 22 个 字 节 进 
行 寻 址 ， 还 需要 8 根 数据 线 来 存 或 取 被 选中 的 字 节 。 
















A3 A3 
A4 人 DO A4 

A5 —> | A5 

A6 A6 

A7 A7 

Ag 512Kx8 D3 A8 OSRE] 
A10 A10 

All (4M 位 ) 一 > D5 — 
Al2 

Al} =— H D6 

Al4 D7 RAS 

A15 

Al6 CAS 

A17 

A18 





CS WE OE CS WE OE 
a) b) 
图 3-30 4M 位 内 存 芯 片 的 两 种 组 织 方式 


这 里 ， 我 们 需要 对 几 个 术语 做 些 注 解 。 在 某 些 管 脚 上 ， 加 上 高 电 平 可 以 使 某 些 动作 发 生 ; 
而 对 于 其 他 一 些 管 脚 ， 加 上 低 电 平 才 可 以 使 某 些 动作 发 生 。 为 避免 混淆 ， 我 们 将 统一 把 将 一 
个 信号 设置 成 可 使 某 动作 发 生 称 为 信号 有 效 ( 而 不 说 它 上 升 或 下 降 )。 这 样 ， 对 于 某 些 管 脚 ， 
信号 有 效 意味 着 将 其 置 为 高 ， 而 对 于 其 他 一 些 就 是 将 其 置 为 低 。 以 低 电 平 有 效 的 信和 号 我 们 在 
它 的 名 称 上 面 加 一 条 上 划 线 ， 即 如 果 信 和 号 名 称 为 CS 的 话 表明 它 是 高 电 平 有 效 ， 而 名 称 为 CS 
的 话 是 低 电 平 有 效 。 信 号 有 效 的 反面 即 信号 失效 ， 当 没有 出 现 什么 特殊 情况 时 ， 信 和 号 一 般 处 
于 失效 状态 。 

还 是 回 到 我 们 介绍 的 内 存世 片上 。 由 于 计算 机 中 一 般 会 有 多 片 内 存 芯片 ， 所 以 显然 需要 
一 个 信号 来 指定 一 个 当前 使 用 的 芯片 ， 并 由 它 来 响应 计算 机 的 读 写 请 求 ， 而 所 有 其 他 芯片 则 
不 必 有 任何 动作 。 片 选 信和 号 CS 就 是 为 这 个 目的 设计 的 。 它 有 效 时 表明 内 存 芯 片 被 选中 。 同 
时 ， 还 需要 信和 号 来 区 分 读 写 操 作 。WE ( 写 使 能 ) 信号 有 效 时 表示 现在 进行 的 内 存 操作 是 写 内 
存 ， 而 不 是 对 内 存 进行 读 。 最 后 ，OE (输出 使 能 ) 信号 有 效 则 驱动 芯片 数据 的 输出 。 当 它 无 
效 时 ， 芯 片 的 输出 信号 和 外 部 电路 是 断 开 的 。 

而 图 3-30b 采 用 的 是 另外 一 种 寻 址 方式 。 世 片 的 内 部 ， 是 由 1 位 存储 单元 组 成 的 
2048 x 2048 32, MAE 4M 位 。 为 了 对 此 芯片 寻 址 ， 首 先 将 11 位 行 地 址 输入 到 芯片 的 地 址 
LE, Rath RAS ( 行 地 址 有 效 ) 信号 有 效 ， 以 选中 存储 单元 中 的 一 行 ; 然后， 再 往 管 脚 
上 输入 列 地 址 并 使 CAS ( 列 地 址 有 效 ) 信号 有 效 。 最 后 ,存储 芯片 响应 这 些 请 求 ， 输 出 选中 
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的 那 位 数据 位 。 

大 容量 的 内 存 芯 片 的 内 部 结构 常 采 用 这 种 nxn 矩阵， 通过 行 地 址 线 和 列 地 址 进行 寻 址 。 
这 种 组 成 方式 在 减少 了 芯片 的 管 脚 数 的 同时 也 减 慢 了 芯片 的 寻 址 速度 ， 因 为 它 需 要 两 个 寻 址 
周期 ， 一 次 是 行 地 址 寻 址 ， 一 次 是 列 地 址 寻 址 。 为 挽回 一 点 这 种 设计 造成 的 速度 的 降低 ， 有 
些 内 存世 片 常 常 给 定 一 个 行 地 址 后 ， 给 出 连续 的 一 段 列 地 址 来 访问 一 行 中 连续 的 数据 位 。 

数 年 以 前 ， 最 大 容量 的 内 存 芯片 一 般 还 采用 图 3-30b 的 组 织 方式 。 但 随 着 内 存 字 的 宽度 
从 8 位 增长 到 32 位 甚至 更 宽 ， 宽 度 为 1 位 的 芯片 使 用 起 来 就 很 不 方便 ， 为 了 采用 4096K x 1 
位 的 芯片 构造 一 个 字 宽 32 位 的 内 存 系统 就 需要 并 行 用 32 块 芯片 ， 这 些 芯 片 的 内 存 容 量 至 少 
也 是 16MB ; 而 采用 512K x 8 位 的 芯片 就 只 要 并 行 用 4 块 ， 最 小 容量 可 以 是 2MB。 为 避免 在 
一 个 内 存 系统 中 就 要 采用 32 块 芯片 ， 很 多 内 存 芯片 的 生产 商 现在 都 推出 4、8 和 16 位 字 宽 的 
系列 芯片 。 当 然 ， 如 果 字 长 达到 64 位 的 话 ， 情 况 会 更 糟糕 。 

图 3-31 给 出 了 当前 容量 为 512M 位 的 存储 器 芯片 的 两 个 例子 。 这 两 个 芯片 内 部 都 有 四 个 存 
储 体 ， 每 个 为 128M 位 ， 这 样 ， 需 要 有 两 个 存储 体 选择 信号 来 选择 哪个 存储 体 工作 。 图 3-31a 
所 示 的 是 32M x 16 位 的 设计 ， 其 中 行 地 址 信号 有 13 根 ， 行 地 址 有 效 信号 为 RAS ; 列 地 址 信号 
有 10 根 ， 列 地 址 有 效 信 号 为 CAS， 另 有 2 根 存储 体 选 择 信号 Bank 0 和 Bank 1。 这 25 根 信号 
线 一 起 ， 可 以 对 芯片 内 部 共和 2 个 16 位 的 存储 单元 寻 址 。 图 3-31b 给 出 了 另外 一 种 128Mx4 位 
的 设计 方案 ， 其 中 行 地 址 信号 还 是 13 根 ， 行 地 址 有 效 信号 依然 为 RAS; 列 地 址 信号 则 为 12 根 ， 
列 地 址 有 效 信和 号 依然 是 CAS，2 根 存 储 体 选择 信号 Bank 0 和 Bank 1 不 变 。 这 27 根 信 号 线 一 起 ， 
可 以 对 芯片 内 部 共 2” 个 4 位 的 存储 单元 寻 址 。 芯 片 中 设置 多 少 行 及 多 少 列 可 根据 工程 需要 来 
决定 ， 并 不 强求 行 、 列 数 相同 。 





CS WE OE 
a) b) 
图 3-31 512M 位 内 存 芯 片 的 两 种 组 织 方式 


上 面 这 些 例子 说 明了 存储 器 芯片 设计 时 要 考虑 的 两 个 互相 独立 的 问题 。 第 一 个 是 关于 输 
出 的 数据 的 位 数 :设计 的 芯片 每 次 需要 输出 1.4、8、16 还 是 更 多 位 数据 ? 第 二 个 是 关于 地 址 的 : 
是 将 所 有 地 址 每 个 安排 一 个 管 脚 ， 还 是 如 图 3-31 所 示 的 分 别 设计 成 行 地 址 及 列 地 址 ? 在 设计 
芯片 之 前 ,存储 器 芯片 的 设计 师 首先 要 把 这 两 个 问题 明确 。 
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3.3.6 RAM #1 ROM 


到 目前 为 止 ， 我 们 所 讨论 的 内 存 都 是 既 可 读 又 可 写 的 ， 它 们 被 称 为 RAM (Random 
Access Memory， 随 机 访问 存储 器 )， 这 个 词 有 点 用 词 不 当 ， 因 为 所 有 的 内 存储 器 都 是 可 以 随 
机 访问 的 ， 但 是 ， 这 个 词 历史 上 沿用 已 入， 现在 已 经 无 法 蔡 代 了 。RAM 可 分 为 静态 RAM 和 
动态 RAM 两 大 类 。 静 态 RAM (SRAM) 内 部 用 的 是 类 似 我 们 介绍 的 D 触发 器 的 电路 ， 只 要 
不 对 它 断 电 ， 存 放 在 里 面 的 数据 就 可 以 永久 保存 ， 几 秒 、 几 分 钟 、 几 小 时 甚至 几 天 都 行 。 它 
的 速度 很 快 ， 一 般 来 说 访问 时 间 是 几 个 纳 秒 或 更 短 。 因 此 ,静态 RAM 被 广泛 用 在 第 2 级 的 
高 速 缓存 中 。 

与 此 相反 ,动态 RAM (DRAM ) 使 用 的 不 是 触发 器 ， 而 是 用 由 晶体 管 和 小 电容 组 成 的 存 
储 单 元 构成 的 阵列 来 存放 数据 ， 通 过 电容 的 充电 和 放电 来 存放 0 和 1。 由 于 存放 在 电容 中 的 
电荷 会 泄漏 ，DRAM 中 的 每 一 位 在 几 个 毫秒 的 时 间 内 都 需 刷 新 ( 重 写 ) 一 次 ， 以 防止 数据 丢 
失 。 刷 新 过 程 需要 由 外 部 电路 来 支持 ， 所 以 DRAM HE SRAM 的 外 部 接口 复杂 ， 尽 管 在 许多 
应 用 中 这 个 缺点 可 以 被 它 的 大 容量 来 补偿 。 

DRAM 的 每 个 存储 位 仅 需 要 一 个 晶体 管 和 一 个 电容 ( 而 最 好 的 SRAM 每 个 存储 位 需要 6 
个 晶体 管 )， 它 的 存储 密度 很 高 ( 每 个 芯片 的 存储 位 多 )。 也 正 是 如 此 ， 主 存储 器 几乎 都 是 由 
DRAM 构成 的 。 然 而 ， 这 种 大 容量 也 是 有 代价 的 : DRAM 速度 较 慢 ( 几 十 个 纳 秒 )。 这样, 我 
们 可 以 结合 使 用 SRAM 组 成 的 高 速 缓存 和 DRAM 组 成 的 主 存 ， 以 充分 发 挥 它们 各 自 的 特长 。 

目前 使 用 的 DRAM 芯片 有 几 个 不 同 的 种 类 ， 其 中 最 老 的 是 FPM( Fast Page Mode， 快 页 ) 
DRAM。 它 的 内 部 是 存储 位 组 成 的 矩阵 ， 工 作 过 程 是 先 输入 行 地 址 ， 下 一 步 再 输入 列 地 址 ， 
分 别 用 RAS 和 GAS 信号 区 分 ， 和 我 们 在 图 3-30 描述 的 过 程 完全 相同 。 通 过 给 存储 器 芯片 明 
确 的 信号 ， 告 诉 它 何 时 给 出 应 答 ， 这 样 ， 存储器 和 主 系统 的 时 钟 同 步 工作 。 

FPM DRAM 后 来 逐渐 被 EDO (扩展 数据 输出 ，Extended Data Output) DRAM 取代 ， 新 
型 号 允许 在 前 一 个 内 存 访问 周期 结束 之 前 启动 第 二 个 内 存 访问 周期 。 这 种 简单 的 流水 技术 虽然 
没有 加 快 单 次 内 存 的 访问 速度 ， 但 提高 了 整个 内 存 的 带宽 ， 单 位 时 间 内 能 输出 更 多 的 字 。 

在 内 存 芯片 访问 周期 为 12 纳 秒 或 更 慢 一 些 的 时 候 ，FPM 和 EDO 都 工作 得 很 好 。 但 是 ， 
随 着 处 理 器 速度 的 提高 ， 对 内 存 芯 片 的 速度 也 提出 了 更 高 的 要 求 ， 此 时 ， 它 们 逐渐 被 同步 动 
# RAM (SDRAM, Synchronous DRAM ) 所 替代 。SDRAM 是 静态 和 动态 RAM 相 结合 的 
产物 ， 统 一 由 系统 时 钟 驱动 。 SDRAM 最 大 的 优点 是 省 去 了 与 内 存 芯 片 进行 握手 的 控制 信和 号， 
而 是 由 CPU 告诉 内 存 芯片 需要 运行 几 个 时 钟 周期 ， 然 后 启动 访问 。 在 每 个 后 续 的 时 钟 周期 ， 
内 存 芯 片 根据 它 的 数据 信和 号 的 位 数 ， 送 出 4、8 或 16 位 的 数据 。 省 去 握手 控制 信号 增加 了 
CPU 和 内 存 间 的 数据 传输 速度 。 

对 SDRAM 的 进一步 改进 的 结果 是 双 倍 数据 速率 (Double Data Rate, DDR ) SDRAM. 
这 种 内 存世 片 可 在 时 钟 的 上 升 沿 和 下 降 沿 均 输 出 数据 ， 使 数据 速率 提高 了 一 倍 。 这 样 ， 工 作 
频率 为 200MHz 的 8 位 字 长 的 DDR 芯片 ， 每 秒 钟 可 送出 2 亿 次 数据 ， 每 次 是 两 个 8 位 的 数 
(当然 ， 只 能 是 短 时 间 内 )， 使 理论 上 的 成 组 传送 数据 速率 可 达 3.2Gbps。DDR2 和 DDR3 存储 
接口 分 别 通过 将 存储 总 线 频 率 提高 到 533MHz 和 1067MHz 来 进一步 提高 性 能 。 本 书 付 印 时 ， 
最 快 的 DDR3 芯片 数据 传输 速率 达 17.067GB/s。 

1. 非 易 失 性 存储 芯片 

RAM 并 不 是 唯一 的 内 存 芯片。 在 许多 应 用 ， 例 如 玩具 、 家 电 ， 甚 至 汽车 中 ， 都 要 求 内 存 
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中 的 程序 和 数据 在 断 电 情况 下 也 能 保存 。 而 且 ， 这 些 程序 和 数据 一 旦 装载 就 不 会 改变 。 这 种 
需求 导致 了 ROM (Read-Only Memory， 只 读 存 储 器 ) 的 发 展 。ROM 存放 的 内 容 只 能 读 ， 不 
能 被 改变 或 擦 除 ， 不 管 是 有 意 还 是 无 意 。ROM 中 的 数据 在 生产 芯片 的 时 候 ， 通 过 将 感光 材料 
在 一 个 包含 要 被 装 入 的 数据 的 存放 模式 的 面 单 下 上 曝光， 然后 将 曝光 ( 或 未 曝光 ) 表面 蚀刻 而 
成 。 这 样 ， 要 改变 ROM 中 的 内 容 的 唯一 办 法 就 是 更 换 整 块 芯片 。 

大 批量 订货 时 ， 可 以 降低 生产 面罩 的 成 本 ， 这 时 ，ROM 将 比 RAM 便宜 很 多 。 尽 管 如 
此 ，ROM 使 用 起 来 还 是 不 太 方便 ， 因 为 它们 生产 完 后 就 不 能 再 修改 了 ， 而 且 ， 从 订货 到 收 
到 ROM 的 时 间 可 能 要 数 周 之 久 。 为 使 公司 能 更 方便 地 开发 基于 ROM 的 新 产品 ， 有 人 发 明了 
PROM (Programmable ROM， 可 编程 ROM )。 除 了 可 在 现场 编程 (一 次 )， 缩 短 了 生产 周期 
外 ，PROM 和 ROM 完全 相同 。 多 数 PROM 内 部 包含 许多 小 熔 丝 组 成 的 阵列 ， 甚 编程 原理 是 
先 选 定 行 和 列 ， 然 后 在 芯片 的 特定 管 脚 上 加 上 高 电 平 ， 使 选中 的 熔 丝 烧 断 。 

沿 着 这 个 方向 再 往 下 发 展 ， 就 出 现 了 EPROM (Erasable PROM, TIX PROM), EA 
但 可 以 现场 编程 ， 也 可 以 现场 擦 除 。 当 EPROM 的 石英 窗口 在 强 紫 外 光 的 照射 下 达到 15 分 
钟 ， 它 里 面 的 所 有 的 位 都 被 置 为 1。 如 果 在 设计 过 程 中 ， 肯 定 要 发 生 多 次 修改 的 话 ，EPROM 
通常 要 比 PROM 更 经 济 ， 因 为 它 可 以 被 多 次 使 用 。EPROM 一 般 和 静态 RAM 的 结构 相同 。 
例如 ，4M 位 的 EPROM 27C040 的 结构 就 如 图 3-31a 所 示 ， 是 典型 的 静态 RAM 结构 。 有 趣 的 
是 这 类 古老 的 芯片 并 没有 消失 ， 而 仅仅 是 变 得 更 便宜 ， 并 在 对 价格 高 度 敏感 的 低 端 产品 中 找 
到 了 用 武之 地 。 一片 27C040 芯片 现在 零售 价 不 到 3 美元 ， 批 量 大 的 话 价 格 更 低 。 

tt EPROM 更 好 一 些 的 是 EEPROM， 对 它 进行 擦 除 只 需 加 上 一 定 的 脉冲 ， 而 不 用 放 到 特 
定 的 容器 中 用 强 紫 外 光照 射 。 并 且 ， 对 EEPROM 再 编程 在 适当 的 地 方 就 可 以 了 ， 而 EPROM 
的 再 编程 必须 在 特制 的 EPROM 编程 器 中 进行 。 它 的 缺点 是 ， 即 使 最 大 的 EEPROM 的 容量 
一 般 也 只 有 普通 EPROM 的 1/64， 速 度 也 只 是 EPROM 的 一 半 。EEPROM 无 法 和 DRAM 及 
SRAM 相 比 ， 因 为 它 的 速度 要 慢 10 倍 ， 容 量 要 小 100 倍 ， 价 格 却 更 高 。EEPROM 只 用 在 其 
非 易 失 性 十 分 重要 的 场合 。 

EEPROM 的 最 新 类 型 是 闪存 。 和 通过 在 紫外 光照 射 进行 擦 除 的 EPROM 及 通过 特定 字 节 
进行 擦 除 的 EEPROM 都 不 同 ， 闪 存 可 以 按 块 进行 擦 除 和 重 写 。 和 EEPROM 类 似 ， 闪 存 的 探 
除 并 不 需要 从 电路 中 拿 下 来 。 有 很 多 制造 商 生 产 出 不 超过 64GB 闪存 的 小 印刷 电路 板 ， 用 作 
数字 相机 的 “胶卷 ”或 其 他 用 途 。 我 们 在 第 2 章 提 到 过 ,目前 闪存 正 逐 步 取代 机 械 硬盘 。 和 
磁盘 比 ， 闪 存 具备 访问 速度 快 、 能 耗 低 等 特点 ， 但 每 位 的 成 本 要 高 不 少 。 图 3-32 给 出 了 几 种 
存储 介质 的 简单 比较 。 
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图 3-32 ” 几 种 存储 器 的 比较 
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2. 现场 可 编程 门 阵列 

如 我 们 在 第 1 章 所 了 解 到 的 ， 现场 可 编程 门 阵列 (Field-Programmable Gate Array, 
FPGA ) 是 一 种 包含 可 编程 逻辑 的 芯片 ， 通 过 简单 地 加 载 正确 的 配置 数据 ,我 们 可 以 让 它 
变 成 任意 功能 的 逻辑 电路 。FPGA 最 主要 的 优点 是 能 在 几 小 时 内 完成 新 的 硬件 电路 的 制造 ， 
而 不 需要 几 个 月 的 时 间 去 生产 集成 电路 芯片 。 然 而 ， 集 成 电路 芯片 并 没有 因此 走向 消失 ， 
其 原因 在 于 对 于 大 批量 的 应 用 ， 它 比 FEPGA 有 着 巨大 的 成 本 优势 ， 且 性 能 更 好 ， 能 耗 也 
更 低 。 和 凭借 设计 时 间 短 这 一 优点 ，FPGA 常用 来 进行 产品 的 原型 设计 ， 或 者 应 用 于 少量 的 
应 用 。 

下 面 我 们 看 看 FPGA 的 内 部 组 成 和 结构 ,来 了 解 它 是 怎样 实现 各 种 逻辑 电路 的 。FPGA 
中 包含 两 类 主要 的 部 件 : 查找 表 (LookUp Table, LUT) ?和 可 编程 内 部 连 线 ( Programmable 
Interconnect，PI )， 整 个 芯片 就 是 这 两 类 部 件 构 成 的 阵列 。 

使 用 FPGA 时 ,要 用 电路 描述 或 者 硬件 描述 语言 ( 即 用 来 描述 硬件 结构 的 程序 语言 ) 来 
进行 设计 。 然 后 ， 再 对 设计 进行 综合 ， 也 就 是 将 其 映射 到 特定 的 FPGA 体系 结构 上 。 面 临 的 
问题 之 一 是 设计 结果 无 法 映射 到 FPGA 中 。 因 为 FPGA 由 许多 LUT 单元 构成 ， 其 数量 越 多 ， 
成 本 越 高 。 一 般 情况 下 ， 如 果 用 户 设 计 无 法 映射 到 FPGA 中 ,用户 只 能 采取 简化 其 设计 、 放 
弃 一 些 功能 要 求 ， 或 订购 一 片 更 大 (也 就 是 更 昂贵 ) 的 FPGA， 这 三 种 方式 之 一 来 解决 问题 。 
非常 大 的 设计 可 能 用 最 大 的 FPGA 也 无 法 综合 ， 这 需要 设计 者 将 其 设计 映射 到 多 个 FPGA 中 ， 
显然 增加 了 设计 的 难度 ， 但 与 设计 一 个 完全 专用 的 集成 电路 芯片 比较 起 来 ， 这 应 该 还 是 一 件 
轻松 的 工作 。 


3.4 CPU 芯片 和 总 线 


用 有 关 集 成 电路 、 时 钟 及 内 存 芯片 等 知识 武装 起 来 以 后 ， 现 在 我 们 可 以 将 这 些 部 件 组 
装 到 一 起 ,来 看 一 看 完整 的 计算 机 系统 。 这 一 节 ， 我们 首先 从 数字 逻辑 层 的 角度 来 分 析 几 个 
CPU 的 基本 特点 ， 包 括 它们 的 管 脚 信号 (不同 管 脚 上 输出 的 信号 的 含义 )。 由 于 CPU MEST 
用 到 的 总 线 密 不 可 分 ,我 们 也 会 在 这 节 中 介绍 一 下 总 线 的 设计 。 后 续 的 几 节 中 再 给 出 CPU 及 
其 总 线 的 详细 例子 。 


3.4.1 CPU 芯片 


目前 所 有 的 CPU 都 集成 在 单个 芯片 中 ， 这 使 得 它们 和 计算 机 的 其 他 部 分 交互 十 分 清晰 。 
每 个 CPU 芯片 都 通过 它 的 管 脚 和 其 外 部 世界 进行 通信 ， 其 中 ， 有 些 管 脚 从 CPU 往外 输出 信 
号 ， 有 些 管 脚 从 外 部 接受 信号 ， 还 有 一 些 管 脚 既 能 输出 信和 号 也 能 接受 外 部 信号 。 通 过 了 解 这 些 
管 脚 的 功能 ， 我 们 就 可 以 知道 在 数字 逻辑 层 ，CPU 是 如 何 同 内 存 、 输 入 /输出 设备 打交道 的 。 

CPU 芯片 上 的 管 脚 可 以 分 成 三 类 : 地 址 信号 、 数 据 信 号 和 控制 信号 。 这 些 管 脚 通 过 一 组 
叫做 总 线 的 平行 导线 和 内 存 、 输 入 /输出 接口 的 相应 管 脚 相连 。 要 从 内 存 取 指 令 时 ，CPU 先 
将 指令 存放 的 内 存 地 址 输出 到 它 的 地 址 信号 管 脚 上 ， 然 后 发 出 一 个 或 多 个 控制 信和 号， 通知 内 
FERR ( 例如) 一 个 字 。 内 存 回应 这 个 请 求 ， 将 CPU 要 读 的 字 送 到 CPU 的 数据 信和 号 管 脚 


上 ， 并 发 出 控制 信号 ， 表 示 它 完成 了 这 个 动作 。CPU 看 到 这 个 信号 后 ， 就 可 从 数字 信和 号 管 脚 


O 本 节 图 3-33 介绍 了 查找 表 ， 但 译 者 认为 有 误 ， 故 在 中 文 版 中 删 去 了 该 图 及 其 相关 说 明 ， 并 顺 改 了 后 续 图 
号 。 一 -一 编辑 注 
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接收 这 个 字 ， 得 到 了 要 取 的 指令 。 

该 指令 也 许 是 对 内 存 字 进 行 读 写 的 指令 ， 这 时 ， 对 每 个 要 读 写 的 内 存 字 ， 就 重复 一 次 上 
述 过 程 。 以 后 我 们 再 详细 描述 读 写 的 过 程 ， 目 前 要 理解 的 最 重要 的 事情 ， 就 是 CPU 只 能 通过 
其 管 脚 输出 信号 和 接收 信和 号 来 和 内 存 、 输 入 /输出 设备 通信 ， 再 没有 其 他 通信 手段 。 

决定 CPU 性 能 的 两 个 关键 参数 是 其 地 址 信号 的 管 脚 数 和 数据 信号 的 管 脚 数 。 有 产 个 地 
址 信号 管 脚 的 CPU 芯片 最 多 可 以 寻 址 2” 的 地 址 空间 , m 的 通常 取 值 为 16、32 和 64。 类 似 地 ， 
有 个 数据 信号 管 脚 的 CPU 芯片 可 以 在 一 次 读 写 操作 读 出 或 写 人 一 个 地位 的 字 , 二 的 通常 取 
值 上 8、32 和 64。 只 有 8 个 数据 信和 号 管 脚 的 CPU 芯片 需要 4 次 读 操作 来 读 出 一 个 32 位 的 字 ， 
而 32 个 数据 信和 号 管 脚 的 CPU 芯片 就 只 要 一 次 读 就 可 以 了 。 显 然 32 个 数据 信号 管 脚 的 芯片 要 
快 得 多 ,但 肯定 的 是 它 的 价格 也 昂贵 得 多 。 

除 地 址 信号 管 脚 和 数据 信号 管 脚 之 外 ， 每 个 CPU 都 还 会 有 一 些 控制 信号 管 脚 。 这 些 控制 
信号 用 于 调整 进出 CPU 的 数据 流 和 时 间 ， 也 完成 一 些 其 他 用 途 。 所 有 的 CPU 芯片 都 有 的 控 
制 信号 有 电源 (通常 为 +1.2V 或 +1.5V )、 地 、 时 钟 信号 (频率 精确 定义 好 的 方 波 ), 但 其 他 
的 控制 信和 号 就 各 不 相同 了 。 尽 管 如 些 ， 控 制 信号 可 粗略 地 分 为 以 下 几 类 : 

1) 总 线 控制 信号 ; 

2) 中 断 信号 ; 

3) 总 线 仲裁 信号 ; 

4) 协 处 理 器 信号; 

5) 状态 信号; 

6) 其 他 控制 信和 号。 

下 面 我 们 简单 地 逐一 介绍 一 下 这 些 信 号 。 到 后 面 介 绍 Intel Core i7, TI OMAP4430 和 
Atmel ATmegal68 这 些 芯片 时 ， 再 详细 举例 说 明 。 


图 3.33 是 一 个 CPU 的 逻辑 示意 图 ， 它 标 出 了 上 述 。 地 址 信号 
各 组 信号 。 数据 信号 by 
总 线 控制 信号 几乎 都 是 从 CPU 输出 到 总 线 的 微 处 理 
( 因此 也 就 是 给 内 存 和 输入 /输出 芯片 的 信号 )， 用 PARN 器 状态 信号 
来 表明 CPU 要 读 还 是 写 内 存 ， 或 做 其 他 的 事情 。 中 电信 号 cules 
CPU 用 这 些 信和 号 来 控制 其 他 部 件 ， 告 诉 它们 CPU 工 
要 让 它们 干什么 。 地 信号 
中 断 信号 由 输入 /输出 设备 输入 到 CPU 中 。 i 
在 大 多 数 计算 机 中 ，CPU 对 输入 /输出 设备 发 出 的 符号 
启动 命令 后 ， 在 等 待 低速 的 输入 / 答 出 设备 完成 图 3.33 CPU 芯片 逻辑 示意 图 。 简 头 表示 输入 
工作 的 时 候 ，CPU 都 会 去 干 一 些 其 他 的 事情 ， 以 信号 和 输出 信号 ， 短 斜 线 代表 有 多 个 
提高 工作 效率 。 这 样 ， 当 输入 /输出 设备 完成 任 管 脚 。 对 具体 的 CPU， 旁边 会 有 数字 
务 后 ， 输 入 /输出 设备 的 控制 芯片 将 发 出 一 个 到 表明 管 脚 的 数量 


CPU 的 中 断 控制 信号 ， 要 求 CPU 响应 输入 /输出 
设备 的 请 求 ， 比 如 ， 检 查 一 下 是 否 有 输入 /输出 错误 等 。 有 些 CPU 可 能 会 有 一 个 控制 信号 来 
响应 中 断 信号 。 

总 线 仲裁 信号 用 于 控制 总 线 上 的 流量 ， 以 防止 两 个 设备 在 同一 时 刻 使 用 总 线 。 仲 裁 时 ， 
CPU 也 被 视 为 设备 ， 和 其 他 设备 一 样 申请 使 用 总 线 。 
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有 些 CPU 芯片 是 为 了 和 协 处 理 器 共同 工作 而 设计 的 ， 常 见 的 协 处 理 器 有 浮 点 运算 芯片 ， 
甚至 还 有 图 形 运算 芯片 和 其 他 芯片 。 为 方便 CPU 和 协 处 理 器 之 间 的 通信 ， 这 些 CPU 设计 了 
特殊 的 控制 信号 管 脚 ， 满 足 这 方面 的 要 求 。 

上 述 信号 之 外 ， 有 些 CPU 还 有 另外 一 些 控制 信号 管 脚 。 有 些 用 来 提供 或 接收 状态 信息 ， 
另外 一 些 用 于 重新 启动 计算 机 ， 还 有 一 些 用 来 保证 它 和 旧 的 输入 /输出 芯片 之 间 的 兼容 性 。 


3.4.2 计算 机 总 线 


总 线 是 计算 机 中 多 个 设备 公用 的 电子 通道 ， 一 般 可 根据 它 的 不 同 功能 对 它 进 行 分 类 。 它 
可 用 在 CPU 内 部 ， 为 进出 ALU 的 数据 提供 通道 ， 也 可 以 用 在 CPU 外 部 ， 将 CPU 和 内 存 或 
输入 /输出 设备 连接 在 一 起 。 每 类 总 线 都 有 各 自 的 要 求 和 特性 。 本 节 和 后 几 节 中 ,我 们 把 注 
意 力 集中 在 连接 CPU 和 内 存 或 输入 /输出 设备 的 总 线 。 下 一 章 我 们 再 进一步 研究 CPU 内 部 的 
总 线 。 

早期 的 个 人 计算 机 只 有 一 条 外 部 总 线 ， 即 系统 总 线 。 它 由 蚀刻 在 母 板 上 的 50 ~ 100 AF 
行 的 铜 线 组 成 ,一端 装 有 几 个 间距 一 定 的 插头 ,可 以 连接 内 存 或 输入 /输出 接口 板 。 现 在 的 
个 人 计算 机 就 不 同 了 ,一般 在 CPU 和 内 存 间 都 有 专用 的 总 线 ， 另外 还 有 ( 至少 ) 一 条 输入 / 
输出 总 线 连接 其 他 输入 /输出 设备 。 图 3-34 是 由 一 条 内 存 总 线 和 一 条 输入 /输出 总 线 组 成 的 
最 小 的 计算 机 系统 。 


CPU 芯片 











图 3-34 多 总 线 的 计算 机 系统 


一 般 的 著作 中 ， 有 时 用 “ 粗 ” 箭 头 线 来 表示 总 线 ， 就 像 我 们 在 这 个 图 中 所 画 的 一 样 。 粗 
箭头 线 和 用 细 线 上 加 一 短 斜 线 并 在 旁边 用 数字 标注 总 线 位 数 的 表示 方法 之 间 没 有 什么 大 的 区 
别 。 当 总 线 上 所 有 位 的 类 型 相同 ， 也 就 是 说 ， 都 是 地 址 位 或 都 是 数据 位 时 ， 短 斜 线 标注 的 方 
法 用 得 多 一 些 。 而 当 总 线 中 地 址 位 、 数 据 位 和 控制 位 混在 一 起 时 ， 就 常常 用 粗 箭 头 表示 。 

CPU 的 设计 者 可 以 自由 地 根据 他 们 的 需要 使 用 芯片 内 部 的 总 线 ， 但 为 了 使 第 三 方 设计 
的 接口 板 能 连接 到 系统 总 线 上 ， 就 必须 详细 定义 外 部 总 线 工 作 的 原则 ， 并 要 求 所 有 连接 上 
来 的 设备 都 必须 遵循 ， 这 些 原 则 就 是 总 线 协 议 。 除 此 之 外 ， 还 必须 制定 总 线 的 机 械 和 电子 规 
格 ， 使 第 三 方 的 接口 板 能 够 负载 适宜 ， 接 头 合适 ， 并 能 对 其 提供 合适 的 电压 和 时 序 信和 号 等 。 
也 有 一 些 总 线 没有 定义 机 械 规 格 ， 因 为 它们 仅 用 于 一 个 集成 电路 的 内 部 ， 比 如 ， 将 片上 系统 
(SoC) 的 不 同 部 件 连接 在 一 起 。 

许多 总 线 已 经 在 现 有 的 计算 机 上 得 到 广泛 的 应 用 。 其 中 不 管 是 目前 还 是 历史 上 曾经 著名 
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的 有 : Omnibus ( PDP-8 ), Unibus ( PDP-11 ), Multibus ( 8086), VME 总 线 ( 物理 实验 设备 )、 
IBM PC 总 2 ( PC/XT), ISA 总 线 (PC/AT ), EISA 总 2& (80386), Microchannel ( PS/2 ), 
Nubus ( Macintosh ), PCI 总 线 ( 多 种 个 人 计算 机 )、SCSI 总 线 (多 种 个 人 计算 机 和 工作 站 )、 
通用 串 行 总 线 USB ( 现代 个 人 计算 机 )、FireWire (前台 收 款 机 )。 如 果 哪 一 天 ， 除 了 其 中 的 
一 条 之 外 ， 所 有 这 些 总 线 都 从 地 球 表面 消失 了 的 话 ， 那 我 们 这 个 世界 可 能 会 更 美好 一 些 (RK, 
好 ， 两 条 怎么 样 ? )。 不 幸 的 是 ， 这 一 领域 内 的 标准 化 工作 十 分 不 顺利 ， 因 为 这 些 互 不 兼容 的 
系统 都 已 经 有 了 太 多 的 设备 了 。 

顺便 捅 一 句 ，PCI Express 由 于 采用 了 另外 一 种 连接 方式 ， 尽 管 被 广泛 称 为 总 线 ， 但 实际 
上 不 能 算是 总 线 。 我 们 将 在 本 章 后 面 的 章节 进行 探讨 。 

现在 我 们 可 以 开始 讨论 总 线 的 工作 原理 。 有 些 连 在 总 线 上 的 设备 是 主动 型 的 ， 它 们 能 自 
行 对 总 线 的 数据 传输 进行 初始 化 ; 另外 的 是 被 动 型 的 ， 只 能 等 待 CPU 的 启动 命令 。 我 们 把 主 
动 型 的 设备 称 为 主 设备 ， 被 动 型 的 设备 称 为 从 设备 。 当 CPU 要 求 磁盘 控制 器 读 写 一 块 存储 空 
间 时 ，CPU 为 主 设备 而 磁盘 控制 器 为 从 设备 。 可 是 ， 随 后 ， 当 磁盘 控制 器 要 求 内 存 接收 它 从 
磁盘 驱动 器 上 读 到 的 字 时 ,磁盘 控制 器 就 成 了 主 设备 。 图 3-35 列 出 了 几 种 典型 的 主 从 设备 组 
合 。 任 何 情况 下 ， 内 存 都 无 法 成 为 主 设备 。 













图 3-35 总 线 主 从 设备 举例 


计算 机 设备 输出 的 二 进 制 信号 通常 比较 弱 ,， 无 法 驱动 总 线 进行 工作 ， 尤 其 是 总 线 比 较 长 
或 者 上 面 的 设备 比较 多 时 。 因 此 ， 多 数 总 线 的 主 设备 都 要 通过 总 线 驱 动 器 ( bus driver) 电路 
和 总 线 相 连 ， 该 电路 实际 上 起 了 一 个 放大 器 的 作用 。 与 此 类 似 ， 多 数 总 线 的 从 设备 要 通过 总 
线 接收 器 (bus receiver) 和 总 线 相 连 。 而 对 于 那些 既 能 做 主 设备 ， 又 能 做 从 设备 的 设备 ， 则 
通过 总 线 转发 器 (bus transceiver) 芯片 和 总 线 连接 。 这 些 总 线 接 口 芯 片 通常 是 三 态 门 ， 在 设 
备 不 需要 和 总 线 连 接 时 可 以 使 设备 浮 在 总 线 上 ( 即 和 总 线 断 开 )， 而 在 需要 时 又 能 和 总 线 连 
接 ， 或 采用 与 之 类 似 的 集 电 极 开 路 (open collector) 方式 和 总 线 连接 。 当 两 个 或 两 个 以 上 的 
设备 同时 访问 一 根 集 电极 开路 线 时 ， 该 线 上 的 信号 是 所 有 这 些 设备 的 信号 的 逻辑 或 ， 我 们 称 
为 线 或 (wired-OR )。 对 大 多 数 总 线 ， 其 部 分 信和 号 线 是 三 态 信号 ， 而 另外 的 那些 具备 线 或 特性 
的 信和 号 线 ， 是 集 电 极 开 路 信和 号。 

和 CPU 一样 ， 总 线 上 也 有 地 址 信和 号、 数据 信号 和 控制 信号 。 但 是 ， 却 没有 必要 使 总 线 上 
的 信号 线 和 CPU 的 管 脚 一 一 对 应 。 例 如 ， 有些 CPU 通过 三 个 管 脚 信号 译 码 来 表示 它 正 在 进 
行内 存 读 、 内 存 写 、 外 设 读 、 外 设 写 或 其 他 操作 。 而 在 总 线 上 ,通常 有 一 根 单独 的 信号 线 来 
表示 内 存 读 ， 而 用 另外 的 三 根 独立 的 信号 线 分 别 表示 内 存 写 、 外 设 读 和 外 设 写 等 。 这 样 ， 在 
CPU 和 这 种 总 线 之 间 就 需要 一 片 译 码 器 芯片 将 两 边 的 信号 对 应 起 来 ， 也 就 是 说 ， 将 CPU 的 三 
位 管 脚 信号 转换 成 单独 的 信和 号 来 驱动 各 自 对 应 的 总 线 上 的 信和 号 线 。 

总 线 的 设计 和 它 的 运行 原理 是 一 个 相当 复杂 的 问题 ， 对 此 ， 已 有 多 本 书 作 了 专门 的 论述 
( Anderson 等 人 , 2004; Solari 和 Willse，2004 )。 总 线 设计 的 主要 问题 是 总 线 宽度 、 总 线 时 钟 、 
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总 线 仲 裁 和 总 线 操作 。 每 个 问题 都 对 总 线 速 度 和 宽度 有 实质 上 的 影响 。 在 后 面 的 4 节 中 , 我 
们 将 分 别 加 以 论述 。 


34.3 ”总 线 宽度 


总 线 宽度 是 总 线 设计 中 最 显而易见 的 一 个 参数 。 总 线 中 地 址 信号 的 根 数 越 多 ，CPU 能 够 
直接 寻 址 的 内 存 空 间 越 大 。 若 总 线 中 及 根 地 址 线 ， 则 CPU 能 用 它 对 总 共 2" 个 不 同 的 存储 
单元 进行 寻 址 。 为 达到 更 大 的 寻 址 空间 ， 总 线 中 需要 的 地 址 线 则 越 多 。 这 看 起 来 十 分 简单 。 

问题 是 宽 总 线 需要 比 窄 总 线 更 多 的 导线 ， 同 时 也 会 占用 更 大 的 物理 空间 ( 如 主板 上 的 总 
线 要 占用 更 多 的 面积 ) 和 更 大 的 插头 。 这 些 因素 都 使 总 线 的 价格 更 昂贵 。 这 就 使 问题 成 为 在 
寻 址 空间 和 系统 成 本 之 间 的 权衡 。 带 有 64 根 地 址 线 的 总 线 ， 仅 寻 址 2° 字 节 内 存 的 系统 要 比 
只 有 32 根 地 址 线 的 总 线 系统 成 本 高 。 追 求 可 扩展 性 并 不 是 不 要 成 本 的 。 

这 样 看 来 ， 许 多 的 系统 设计 者 都 可 以 说 是 短视 的 ， 不 幸 的 是 ， 这 种 短视 还 在 继续 。 早 期 
的 IBM PC， 采 用 8088 作为 CPU 时 ， 有 20 位 的 地 址 总 线 ， 如 图 3-36a 所 示 。 这 20 根 地 址 总 
线 信 号 使 PC 可 以 寻 址 1MB 内 存 空间 。 

20 位 地 址 信号 





20 位 地 址 信号 





20 位 地 址 信号 








a) b) 
图 3-36 ”总线 随 时 间 的 发 展 


下 一 代 CPU 芯片 (80286) 出 现 后 ，Intel 决定 将 寻 址 空间 增加 到 16MB， 这 样 就 需要 在 
总 线 中 增加 4 根 地 址 信号 线 ( 为 保持 向 后 兼容 ， 不 能 影响 以 前 的 20 根 地 址 信号 )， 如 图 3-36b 
所 示 。 这 样 ， 又 不 得 不 在 总 线 中 增加 控制 信号 来 处 理 新 增 的 地 址 线 。 到 80386 时 ， 又 要 增加 
8 根 地 址 信号 ， 以 及 由 此 带 来 的 控制 信号 ， 如 图 3-36c 所 示 。 这 就 使 最 终 的 总 线 (EISA 总 线 ) 
要 比 从 开始 时 就 采用 32 位 地 址 信号 的 总 线 凌乱 得 多 。 

并 不 仅仅 只 有 地 址 信号 线 才 随 着 时 间 的 推移 不 断 增加 ， 总 线 中 的 数据 信号 线 也 有 所 增 
加 ， 但 原因 不 一 样 。 一 般 来 说 ， 有 两 种 办 法 可 以 提高 总 线 中 的 数据 带宽 : 缩短 总 线 周 期 ( 单 
位 时 间 内 传送 次 数 增加 ) 或 增加 总 线 中 数据 信和 号 线 (每 次 传送 更 多 的 数据 位 )。 虽 然 有 可 能 
(但 很 困难 ) 提高 总 线 速 度 ， 但 由 于 总 线 中 不 同 的 信号 线 的 传输 速度 有 细微 的 差别 ， 也 就 是 
所 谓 总 线 偏离 (bus skew ) 问题 的 存在 ， 使 得 这 种 方法 比较 困难 。 总 线 速度 越 快 ， 偏 离 就 越 
Pee 

提高 总 线 速度 带 来 的 另 一 个 问题 是 无 法 保证 向 后 兼容 ， 为 慢 速 总 线 设 计 的 旧 接 口 卡 无 法 
在 采用 新 总 线 的 系统 上 使 用 。 淘 汰 旧 的 接口 卡 又 会 使 它们 的 用 户 和 生产 厂商 都 不 满意 。 这 样 ， 
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为 提高 总 线 数 据 速 度 而 通常 采用 的 办 法 就 是 增加 数据 信号 线 了 ， 和 图 3-36 中 地 址 信号 的 增加 
类 似 。 然 而 ， 正 如 你 能 预见 到 的 ， 这 种 方式 最 终 无 法 产生 一 个 清晰 的 设计 方案 ， 只 会 是 越 来 
越 复 杂 。 例 如 ，IBM PC 系列 就 在 几乎 同样 的 总 线 上 和 弄 出 了 8 位 、16 位 和 32 位 数据 信和 号 的 不 
同 版 本 的 总 线 。 

为 彻底 摆脱 超 宽 总 线 带 来 的 问题 ， 有 时 设计 者 选择 采用 混合 总 线 (multiplexed bus ) 方 
案 。 这 种 方案 放弃 了 原来 数据 信号 和 地 址 信号 分 开 的 思路 ， 而 只 是 笼统 地 说 有 32 根 地 址 信号 
和 数据 信和 号 线 。 在 总 线 操作 开始 时 ， 这 些 信 号 用 作 地 址 信号 ， 然 后 ， 它 们 又 可 以 用 作 数 据 信 
号 。 例 如 ， 对 内 存 写 操作 ， 这 就 意味 着 地 址 信号 要 先 传 给 内 存 并 由 锁 存 起 来 ， 然 后 才能 在 总 
线 上 传送 数据 信号 。 而 用 原来 地 址 信号 和 数据 信号 相 分 离 的 方案 时 ， 地 址 和 数据 可 以 同时 传 
送 。 混 合 总 线 减 少 了 总 线 宽度 (和 成 本 )， 但 也 降低 了 系统 的 速度 。 设 计 者 必须 仔细 权衡 这 两 
方面 的 得 失 ， 再 作出 选择 。 


3.4.4 总 线 时 钟 


总 线 可 以 根据 其 时 钟 类 型 分 为 同步 总 线 和 异步 总 线 两 大 类 。 同 步 总 线 中 有 一 条 由 晶振 驱 
动 的 产生 固定 频率 的 方 波 的 信号 线 ， 其 方 波 频 率 一 般 在 5 ~ 133MHz 之 间 ， 总 线 的 所 有 操作 
都 将 占用 其 中 的 几 个 完整 方 波 ， 我们 把 一 个 方 波 的 时 间 称 为 总 线 周 期 。 异 步 总 线 中 不 存在 一 
个 起 控制 作用 的 时 钟 ， 它 的 总 线 周期 可 以 是 总 线 操作 所 需 的 任意 长 度 ， 并 不 要 求 其 上 面 的 所 
有 设备 都 保持 一 致 。 下 面 我 们 分 别 对 它们 进行 讨论 。 

1. 同步 总 线 

我 们 以 图 3-37a 为 例 来 说 明 同 步 总 线 的 工作 原理 。 例 中 使 用 的 是 100MHz 的 时 钟 信和 号， 
相应 的 总 线 周 期 为 10 纳 秒 。 比 起 CPU 的 3GHz 或 更 高 的 工作 频率 ， 这 似乎 有 一 些 慢 ， 但 实 
际 上 现 有 的 PC 的 总 线 很 少 有 比 这 更 快 的 。 例 如 ， 目 前 流行 的 PCI 总 线 的 频率 也 就 是 33MHz 
或 66MHz， 其 升级 版 (但 现在 已 经 消失 了 ) PCI-X 的 频率 为 133MHz。 导 致 当前 总 线 频率 较 
低 的 原因 我 们 已 经 讨论 过 了 : 一 是 总 线 设 计 的 技术 原因 ， 如 总 线 偏离 等 ， 另 外 就 是 向 后 兼容 
的 要 求 。 

在 本 例 中 ， 我 们 再 进一步 假设 内 存 读 在 地 址 建立 后 还 需要 15 纳 秒 的 时 间 。 有 了 这 个 参 
数 ， 我 们 马上 可 以 得 到 ， 从 内 存 中 读 取 一 个 字 需 要 三 个 总 线 周 期 。 第 一 个 周期 从 Ti 的 上 升 沿 
开始 ， 第 三 个 周期 在 Ts 的 上 升 沿 结束 ， 如 图 3-37 所 示 。 值 得 注意 的 是 ， 图 3-37 中 没有 任何 
一 个 上 升 沿 或 者 下 降 沿 是 垂直 的 ， 因 为 没有 哪个 电 平 信号 能 在 零 时 间 内 将 其 电 平 降 为 零 。 本 
例 中 我 们 假设 电 平 变化 的 时 间 是 1 纳 秒 。 图 3-37 中 ， 时 钟 信号 Clock、 地 址 信号 ADDRESS, 
数据 信号 DATA、 内 存 请 求 信号 MREQ、 读 写 信 号 RD 、 等 待 信号 WAIT 都 以 相同 的 时 间 单 位 
给 出 。 

Ti 的 起 始 定义 在 时 钟 信号 的 上 升 沿 。 在 Ti F, CPU 在 地 址 线 上 给 出 了 它 所 要 读 的 内 存 字 
的 地 址 。 地 址 信号 和 时 钟 信 号 不 同 ， 它 不 是 单个 值 ， 所 以 我 们 在 图 中 不 好 用 一 条 线 来 表示 它 ， 
而 是 用 如 图 所 示 的 两 条 在 地 址 变化 时 刻 相互 交叉 的 线 来 表示 。 而 且 ， 两 条 线 当 中 的 阴影 部 分 
表示 这 部 分 的 数值 不 起 作用 。 同 样 ， 我们 可 以 看 到 ， 数据 线 上 的 内 容 直 到 进入 Ti 后 才 有 效 。 

在 地 址 信和 号 完成 转变 并 稳定 在 新 值 上 后 ，CPU 发 出 MREQ 和 RD 信和 号。 前 一 个 信号 说 明 
CPU 要 访问 的 是 内 存 (反之 则 是 访问 输入 /输出 设备 )， 后 一 个 信号 表示 要 进行 读 操 作 (反之 
则 是 写 操作 )。 由 于 内 存 芯片 要 在 地 址 建立 后 15 纳 秒 ( 有 一 部 分 时 间 在 第 一 个 周期 内 ) 才能 
输出 数据 ， 所 以 无 法 在 T 内 将 CPU 要 读 的 数据 输出 。 为 通知 CPU 不 要 期 待 马 上 得 到 数据 ， 
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内 存在 T 的 起 始 处 发 出 一 个 WAIT 信号 ， 这 将 插 人 一 个 等 待 状态 ( 额外 的 一 个 总 线 周 期 )， 
直到 内 存 完 成 数据 输出 并 将 WAIT 信号 置 反 。 在 本 例 中 ， 由 于 内 存 较 慢 ， 插 入 了 一 个 等 待 状 
A(T) ÆT 的 起 始 位 置 ， 内 存 确 知 它 能 在 本 周期 内 给 出 数据 后 ， 将 WAIT 信和 号 置 反 。 





插入 一 个 等 待 状态 的 读 周 期 











时 间 一 > 


地 址 建立 时 间 
Tu | MREQ 前 的 地 址 稳定 时 间 
从 时 钟 中 的 Ti 周 期 下 降 沿 开始 的 MREQ 延 迟 
Ta | ”从 时 钟 @ 的 T, 周 期 下 降 沿 开始 的 RD 延迟 
Tos | 在 时 钟 中 的 下 降 沿 之 前 的 数据 建立 时 间 











从 时 钟 中 的 TT 周期 下 降 沿 开始 的 MREQ 延 迟 
从 时 钟 中 的 T 周 期 下 降 沿 开始 的 RD 延迟 
RD 和 置 反 后 数据 保持 时 间 


b) 关键 时 间 的 要 求 
图 3-37 





在 T 的 前 半 部 分 ， 内 存 将 读 出 的 数据 放 到 数据 信和 号 线 上 ， 然 后 ， 在 T; 的 下 降 沿 ，CPU 
选 通 (也 就 是 读 ) 数据 信号 线 ， 将 读 出 的 数据 锁 存 (也 就 是 存放 ) 到 内 部 的 一 个 寄存 器 中 。 
读 完 数据 后 ，CPU 再 将 MREQ 和 RD 信和 号 置 反 。 根 据 需要 ，CPU 可 以 在 时 钟 的 下 一 个 上 升 沿 
启动 另外 一 个 访问 内 存 的 周期 ， 并 重复 以 上 步骤 。 

图 3-37b 所 示 的 时 序 规格 对 时 序 图 中 出 现 的 八 个 符号 做 了 进一步 的 区 分 。 例 如 ，Tap 是 从 
Ti 上 升 沿 开 始 到 地 址 总 线 建立 好 的 地 址 建立 时 间 。 根 据 时 序 规格 要 求 ，Tsp < 4 纳 秒 。 这 就 
是 说 ，CPU 生产 商 保证 ， 在 任何 一 个 读 周期 中 ，CPU 都 将 在 Ti 的 上 升 沿 的 中 点 开始 的 4 纳 
秒 内 建立 好 要 读 的 数据 的 地 址 。 
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时 序 规格 同时 也 要 求 ， 数 据 应 至 少 在 Ti 的 下 降 沿 之 前 Tos (2 纳 秒 ) 在 数据 线 上 准备 好 ， 
使 其 在 CPU 选 通 数据 线 之 前 有 足够 的 时 间 能 稳定 下 来 。Tap 和 To 这 两 项 要 求 组 合 起 来 ， 就 
意味 着 在 最 坏 的 情况 下 ， 内 存 芯 片 在 地 址 出 现在 地 址 信号 上 后 ， 只 有 25-4-2=19 纳 秒 的 时 间 ， 
就 必须 将 数据 读 出 并 送 到 数据 信号 线 上 。 这 样 ， 我 们 选 的 10 纳 秒 的 芯片 就 可 以 满足 这 条 总 线 
的 要 求 ， 即 使 在 最 坏 的 情况 下 ， 它 也 能 在 T: 周期 内 给 出 数据 。 如 果 使 用 的 是 20 纳 秒 的 芯片 ， 
那么 ， 就 需要 插入 第 二 个 等 待 状态 ， 并 只 能 在 T, 周期 等 到 响应 。 

时 序 规格 中 进一步 要 求 地 址 信号 必须 在 MREQ 信号 发 出 前 至 少 2 纳 秒 建立 起 来 。 如 果 内 
存 芯 片 的 片 选 信号 是 由 这 个 信号 驱动 的 话 ， 这 段 时 间 就 显然 十 分 重要 ， 因 为 有 些 内 存 芯 片 要 
求 在 片 选 信号 之 前 给 出 地 址 信号 。 很 明显 ， 系 统 的 设计 者 不 应 该 选择 一 片 需 要 3 纳 秒 建立 时 
间 的 内 存 芯 片 。 

Tu 和 Tar 这 两 条 限制 要 求 MREQ 和 RD 必须 在 从 T 的 下 降 沿 开始 3 纳 秒 内 给 出 。 在 最 
坏 的 情况 下 ， 内 存 芯 片 在 得 到 MREQ 和 RD 信和 号 后 ， 只 有 10+10-3-2=15 纳 秒 的 时 间 就 必须 
将 数据 送 到 总 线 上 。 这 两 条 限制 是 除 地 址 建立 后 15 纳 秒 内 输出 数据 之 外 还 必须 满足 的 ， 而 且 
互相 独立 。 

Tau 和 Taa 给 出 了 在 数据 被 选 通 后 多 长 时 间 将 MREQ 和 RD fa SBR. Ba, Tow 用 来 
指出 在 RD 信和 号 已 经 置 反 后 ， 内 存 芯 片 还 需 在 总 线 上 将 数据 保持 多 长 时 间 。 对 于 本 例 中 用 到 
的 CPU， 内 存 芯 片 可 以 在 RD 信号 被 置 反 的 同时 从 总 线 上 撤 掉 数据 信号 ; 但 对 于 某 些 实际 的 
CPU， 数 据 保 持 的 时 间 还 需要 稍微 长 一 点 。 

需要 指出 的 是 ， 图 3-37 是 一 个 实际 时 序 关 系 的 高 度 简化 版 本 。 实 际 上 ， 还 需要 有 很 多 其 
他 的 时 间 限 定 条 件 。 不 过 ， 它 还 是 足以 说 明 同 步 总 线 的 工作 原理 。 

最 后 要 提醒 的 是 ， 控 制 信号 可 以 是 高 电 平 有 效 ， 也 可 以 是 低 电 平 有 效 ， 这 取决 于 总 线 的 
设计 者 觉得 如 何方 便 ， 但 选择 方案 显然 是 任意 的 。 大 家 可 以 把 这 和 程序 员 选 择 0 还 是 1 来 表 
示 磁 盘 上 的 空闲 块 当成 一 回 事 。 

2. 异步 总 线 

尽管 由 于 使 用 同一 个 时 钟 信 号 ， 同 步 总 线 的 工作 原理 相对 简单 ， 但 它 也 存在 一 些 问题 。 
例如 ， 它 要 求 所 有 事情 必须 在 一 个 或 多 个 时 钟 周期 内 完成 ， 即 使 CPU 和 内 存世 片 可 以 在 3.1 
个 总 线 周期 内 完成 数据 读 写 ， 使 用 同步 总 线 也 必须 将 其 拉 长 到 4 个 总 线 周期 ， 因 为 同步 总 线 
不 允许 有 不 完整 的 总 线 周 期 。 

更 糟糕 的 是 ， 一 旦 选 定 了 总 线 的 周期 ， 并 为 它 设计 出 内 存 芯片 和 输入 /输出 的 接口 卡 后 ， 
就 很 难 利用 今后 技术 进步 带 来 的 好 处 。 例 如 ， 假 定 在 图 3-37 所 示 的 总 线 系统 生产 的 几 年 后 ， 
有 了 访问 时 间 只 有 8 纳 秒 的 内 存 芯片， 可 以 用 来 取代 现 有 的 15 纳 秒 内 存 芯 片 ， 这 时 ， 可 以 去 
掉 揪 入 的 等 待 状态 ， 提 高 机 器 的 速度 。 如 果 再 出 现 访问 时 间 只 有 4 纳 秒 的 内 存世 片 ， 就 无 法 
使 用 现 有 总 线 来 提高 性 能 了 ， 因 为 该 总 线 设计 的 读 操 作 就 是 两 个 周期 。 

我 们 将 这 种 情况 稍微 变 一 个 说 法 。 若 一 条 同步 总 线 上 接 有 多 个 不 同 的 设备 ， 这 些 设备 的 
数据 传输 速度 有 快 有 慢 ， 那 么 ， 总 线 周期 就 必须 设计 得 能 满足 最 慢 的 设备 ， 而 快速 设备 就 不 
可 能 满 效率 地 运行 。 

采用 如 图 3-38 所 示 的 没有 主 时 钟 的 异步 总 线 后 ， 就 可 以 解决 上 述 问题 了 。 它 放弃 了 
同步 总 线 将 一 切 事情 都 绑 定 在 时 钟 信号 上 的 做 法 ， 而 是 在 总 线 的 主 设备 给 出 地 址 信和 号、 
MREQ, RD 及 其 他 所 有 需要 的 信号 后 ， 再 给 出 一 个 我 们 称 为 主 同步 信号 的 MSYN (Master 
SYNchronization ) 信号 。 当 从 设备 得 到 这 个 信号 后 ， 就 以 它 本 身 最 快 的 速度 响应 和 运行 ， 完 


138 #3 # 


成 任务 后 ， 发 出 从 同步 信号 SSYN ( Slave SYNchronization )。 


地 址 所 读 内 存单 元 的 地 址 a 


MREQ 
C/ 
RD 
EA 
MSYN 
过 
数据 一 
= = 


图 3-38 ”异步 总 线 工 作 时 序 


主 设备 一 得 到 从 同步 信号 SSYN， 就 知道 数据 已 经 准备 好 ， 它 就 可 以 对 数据 进行 锁 存 ， 
并 撤销 地 址 信号 、 并 将 MREQ, RD 和 MSYN 信号 置 反 。 从 设备 得 到 已 被 置 反 的 MSYN 信号 
后 ， 知 道 一 个 访问 周期 已 经 完成 ， 就 可 以 将 SSYN 信号 置 反 ， 这 样 ， 就 回 到 了 起 始 状态 ， 所 
有 的 信和 号 都 处 于 置 反 状 态 ， 等 待 主 设备 启动 下 一 个 总 线 访 问 周期 。 

异步 总 线 的 时 序 图 ( 有 时 同步 总 线 也 如 此 ) 用 箭头 来 表示 原因 和 结果 ， 就 像 图 3-38 一 
样 。MSYN 信和 号 的 给 出 使 数据 信和 号 建立 ， 并 使 从 设备 发 出 SSYN 信和 号。 依次 地 ，SSYN 信和 号 
的 发 出 将 导致 地 址 信号 的 撤销 和 MREQ、RD 及 MSYN 信和 号 的 置 反 。 最 后 ，MSYN 信和 号 的 置 
反 导 致 SSYN 信和 号 的 置 反 ， 结 束 整 个 读 过 程 ， 整 个 总 线 系统 返回 到 了 初始 状态 。 

我 们 把 一 连 串 以 这 种 方式 工作 的 信号 称 为 全 握手 (full handshake) 工作 方式 。 它 由 以 下 
4 个 必需 的 事件 组 成 : 

1) 发 出 MSYN 信号; 

2) 响应 MSYN 信号 而 发 出 SSYN 信号; 

3 ) 响应 SSYN 信号 而 将 MSYN 信号 置 反 ; 

4) 响应 MSYN 信和 号 置 反而 将 SSYN fA SZ. 

很 明显 ， 全 握手 方式 和 时 序 无 关 。 每 个 事件 都 由 前 一 个 事件 引起 ， 而 不 是 由 时 钟 脉 冲 控 
制 。 如 果 有 一 对 主 从 设备 速度 较 慢 ， 也 不 会 影响 下 一 对 快速 的 主 从 设备 。 

ME, 异步 总 线 的 优势 应 该 清楚 了 ,但 实际 上 绝 大 多 数 总 线 都 是 同步 总 线 ， 主 要 原因 是 
同步 的 系统 容易 设计 和 制造 。CPU 只 需 负 责 发 出 信号 ， 而 内 存世 片 只 需要 响应 信和 号。 在 不 存 
在 信和 号 反馈 (信号 没有 原因 和 结果 关系 ) 的 情况 下 ， 如 果 选 择 得 当 ， 所 有 设备 也 能 正常 工作 ， 
不 需要 握手 信和 号。 而 且 ， 在 同步 总 线 技术 上 ， 已 经 有 了 大 量 的 投资 。 


3.4.5 ”总线 仲裁 


到 目前 为 止 ， 我 们 一 直 默 认 总 线 只 有 一 种 主 设备 ， 即 CPU。 实 际 上 ,输入 /输出 芯片 在 
读 写 内 存 和 发 出 中 断 请 求 时 ， 也 不 得 不 成 为 总 线 的 主 设备 。 协 处 理 器 有 时 也 需要 作为 总 线 主 
设备 。 这 样 ， 问 题 就 出 现 了 :“ 如 果 两 个 或 多 个 设备 需要 成 为 总 线 的 主 设备 时 ， 会 出 现 什么 情 
况 ? ”为 解决 这 个 问题 ， 防 止 总 线 冲 突 ， 就 必须 采用 一 些 总 线 仲 裁 机 制 。 
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仲裁 机 制 可 分 为 集中 式 和 竞争 式 两 种 方式 。 首 先 我 们 讨论 集中 式 。 图 3-39a 给 出 了 一 种 
典型 的 集中 式 仲裁 方式 。 在 这 种 方式 中 ， 由 一 个 单独 的 总 线 仲裁 器 来 决定 下 一 次 该 哪个 设备 
使 用 总 线 。 许 多 系统 都 把 总 线 仲裁 器 设置 在 CPU 内 部 ， 但 有 些 系统 单独 设置 了 一 片上 芯片。 总 
线 中 有 一 条 线 或 在 一 起 的 总 线 请 求 信号 ， 总 线 请 求 信号 由 一 个 或 多 个 总 线 设备 在 任何 时 间 发 
出 。 总 线 仲裁 器 无 法 判断 出 有 和 多少 个 总 线 设备 发 出 了 总 线 请 求 ， 它 只 能 区 分 出 有 请 求 和 无 请 
求 两 种 状态 。 


总 线 请 求 











b) 两 级 菊 链 总 线 仲裁 器 
图 3-39 


当 总 线 仲 裁 器 发 现 总 线 请 求 后 ， 它 发 出 一 个 总 线 授权 信号。 这 个 信和 号 被 串联 到 所 有 的 输 
和 人 /输出 设备 上 ， 就 像 一 条 圣诞 树 上 的 廉价 灯泡 。 当 物理 上 离 仲 裁 器 最 近 的 那个 输入 /输出 设 
备 得 到 授权 信号 时 ， 由 这 个 设备 来 检查 是 否 它 发 出 了 总 线 请 求 信号 。 如 果 是 ， 由 它 接管 总 线 ， 
并 停止 授权 信和 号 继续 往 下 传播 。 若 该 设备 没有 发 出 总 线 请 求 ， 则 将 授权 信和 号 继续 传送 到 下 一 
个 设备 ， 这 个 设备 再 重复 上 述 动作 ， 直 到 有 一 个 设备 接管 总 线 为 止 。 这 种 方式 称 为 菊 链 仲裁 
(daisy chaining )， 它 的 特点 是 设备 使 用 总 线 的 优先 级 由 它 离 总 线 仲 裁 器 的 距离 决定 ， 最 近 的 
优先 级 最 高 。 

为 摆脱 设备 优先 级 由 其 与 总 线 仲 裁 器 的 距离 来 决定 的 不 足 ， 许 多 总 线 设置 了 多 级 仲裁 ， 
每 一 级 都 有 各 自 的 总 线 请 求 信号 和 总 线 授权 信和 号。 图 3-39b 所 示 的 有 两 级 ，1 级 和 2 级 (实际 
的 总 线 常 有 4、8 或 者 16 级 )。 每 个 设备 都 接 在 其 中 的 某 一 级 仲裁 线 上 ， 时 间 急 人 迫 的 设备 连接 
的 仲裁 线 的 优先 级 较 高 。 在 图 3-39b 中 ,设备 1、2 和 4 连 在 优先 级 为 1 的 仲裁 线 上 ， 而 设备 
3 和 设备 5 连 在 优先 级 为 2 的 仲裁 线 上 。 

当 多 个 总 线 伸 裁 级 别 同 时 发 出 了 总 线 请 求 时 ， 总 线 仲裁 器 只 对 优先 级 最 高 的 那个 级 别 发 出 
总 线 授权 信号 ， 在 同一 优先 级 内 ， 再 使 用 菊 链 仲裁 方式 ， 决 定 由 哪个 设备 使 用 总 线 。 如 图 3-39b 
所 示 ， 在 发 生 冲 突 时 ， 设 备 2 的 优先 级 比 设 备 4 高 ， 而 设备 4 又 比 设备 3 高 。 设 备 5 的 优先 级 
最 低 ， 因 为 它 处 于 优先 级 最 低 的 仲裁 级 别 的 尾 端 。 
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需要 顺便 说 明 一 下 的 是 ， 从 技术 上 说 并 没有 必要 将 优先 级 为 2 的 仲裁 信号 和 设备 1 和 设 
备 2 串 起 来 ， 因 为 这 两 个 设备 不 会 对 这 个 仲裁 信号 有 影响 。 但 考虑 到 实现 上 的 方便 性 ， 将 所 
有 仲裁 信号 和 所 有 设备 都 连接 起 来 比 起 根据 设备 的 优先 级 来 决定 信号 连接 要 容易 一 些 ， 所 以 
图 3-40 中 两 个 仲裁 信号 都 连接 到 了 所 有 设备 上 。 











图 3-40 ”竞争 式 总 线 仲裁 


部 分 仲裁 器 还 有 第 三 根 信 号 线 ， 是 由 设备 在 得 到 授权 并 控制 总 线 后 发 出 的 ,一 旦 设备 发 
出 这 个 确认 信号 ， 总 线 请 求 信号 和 授权 信号 都 被 置 反 ， 这 时 ， 在 这 个 设备 使 用 总 线 的 同时 ， 
其 他 设备 还 照样 可 以 发 出 总 线 请 求 ， 当 前 设备 使 用 完 总 线 后 ， 下 一 个 总 线 主 设备 就 已 经 选择 
出 来 了 。 也 就 是 说 ， 下 一 个 总 线 仲裁 的 循环 可 以 在 设备 发 出 的 确认 信号 刚 被 置 反 时 就 开始 。 
这 种 应 用 模式 需要 在 总 线 中 增加 信号 ， 并 要 求 每 个 设备 中 增加 相应 的 逻辑 电路 ,但 确实 提高 
了 总 线 周期 的 利用 率 。 

对 于 内 存 也 使 用 主 总 线 的 系统 ，CPU 需要 在 几乎 每 个 周期 和 输入 /输出 设备 竞争 总 线 的 
使 用 权 。 对 此 ， 常 用 的 一 个 解决 办 法 就 是 把 CPU 的 优先 级 设 为 最 低 ， 这 样 ， 它 只 能 在 没有 别 
的 设备 使 用 总 线 时 才能 得 到 总 线 的 使 用 权 。 理 由 很 简单 ，CPU 不 论 在 任何 时 候 都 是 可 以 等 待 
的 ， 但 输入 /输出 设备 通常 要 马上 得 到 总 线 的 使 用 权 ， 否 则 就 有 可 能 丢失 输入 的 数据 ; 而 高 
速 旋转 的 硬盘 也 不 能 等 待 。 在 目前 许多 新 型 的 计算 机 上 ， 这 个 问题 是 通过 增设 一 条 总 线 ， 把 
内 存 和 其 他 输入 /输出 设备 的 总 线 分 开 ， 使 它们 不 必 互 相 竞争 总 线 访问 权 而 得 到 解决 。 

竞争 式 总 线 仲裁 也 是 可 能 的 。 例 如 ， 某 台 计 算 机 可 以 有 16 个 优先 级 的 总 线 请 求 信号 ， 当 
它 的 一 个 设备 需要 使 用 总 线 时 ， 就 发 出 与 它 相 对 应 的 总 线 请 求 信 叶 ， 所 有 的 设备 都 监听 着 所 
有 的 总 线 请 求 信号 ， 这 样 ， 到 每 个 总 线 周 期 结束 时 ， 每 个 设备 都 能 知道 自己 是 否 是 优先 级 最 
高 的 总 线 请 求 者 ， 能 和 否 得 到 允许 在 下 一 个 总 线 周期 使 用 总 线 。 与 集中 式 总 线 仲裁 相 比 ， 这 种 
总 线 仲 裁 方式 要 求 的 总 线 信 号 更 多 ,但 防止 了 总 线 潜在 的 浪费 。 它 还 要 求 总 线 上 设备 的 个 数 
不 能 超过 总 线 请 求 信号 线 的 条 数 。 

图 3-40 给 出 了 男 一 种 竞争 式 的 总 线 仲裁 方式 ， 它 不 管 总 线 上 有 多 少 设备 ， 都 只 需要 三 条 
信和 号 线 。 其 中 ， 第 一 条 是 各 设备 的 总 线 请 求 信号 的 线 ; 第 二 条 为 “总 线 ”( BUSY ) 信号 ,是 
由 当前 使 用 总 线 的 主 设备 发 出 的 ; 第 三 条 信和 号 线 用 于 总 线 仲 裁 ， 它 将 总 线 的 所 有 设备 串 行 连 
接 在 一 起 ， 其 中 一 头 接 在 电源 上 。 

当 没 有 设备 申请 使 用 总 线 时 ， 电 平 为 高 的 总 线 仲裁 信号 被 传输 到 所 有 的 设备 。 要 得 到 总 
线 的 使 用 权 ， 设 备 首先 要 检查 总 线 是 否 空闲 ， 并 检查 它 得 到 的 总 线 仲裁 信号 ， 即 IN， 是 否 为 
高 电 平 。 如 果 IN 已 经 是 低 电 平 ， 则 该 设备 不 能 成 为 总 线 的 主 设备 ， 还 要 把 它 的 OUT WEN 
低 。 如 果 IN 还 是 高 电 平 ， 则 该 设备 还 是 要 将 其 OUT 端 置 为 低 ， 这 就 使 它 下 游 的 邻居 的 IN 为 
低 ， 并 因此 也 把 OUT 置 为 低 。 当 一 切 就 绪 后 ， 只 会 有 一 个 设备 的 IN 为 高 ,而 OUT 为 低 ， 这 
个 设备 成 为 总 线 的 主 设备 ， 发 出 BUSY 信号 和 OUT 信和 号， 然后 开始 传送 数据 。 
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当 最 左边 的 设备 发 出 总 线 请 求 时 ， 除 了 没有 仲裁 器 外 ， 其 过 程 和 菊 链 仲裁 的 方式 十 分 类 
似 ， 故 这 是 一 种 廉价 、 高 速 的 方式 ， 而 且 不 会 导致 仲裁 失败 。 


3.4.6 总线 操 作 


迄今 为 止 ， 我 们 只 讨论 了 普通 的 总 线 周 期 ， 即 总 线 主 设备 (一般 为 CPU ) 对 从 设备 (例如 
内 存 ) 进行 数据 读 写 。 实 际 上 ， 还 有 其 他 类 型 的 总 线 周 期 存在 。 下 面 我 们 就 讨论 其 中 的 几 种 。 

正常 情况 下 ， 总 线 上 一 次 传送 一 个 字 。 然 而 ， 在 使 用 高 速 缓存 的 时 候 ， 我 们 希望 一 次 就 
能 把 整个 Cache 块 取 过 来 ( 例如 ，8 个 连续 的 64 位 字 )。 一 般 来 说 ， 成 块 传送 会 比 连续 的 单 次 
传送 效率 高 一 些 。 总 线 主 设备 启动 块 读 操作 后 ， 就 要 告诉 从 设备 它 要 读 取 的 字数 。 比 如 ， 它 
可 以 在 Ti 周期 内 将 字数 放 在 数据 信号 上 ， 供 从 设备 锁 存 。 然 后 ， 与 原来 只 返回 一 个 字 不 同 ， 
从 设备 在 每 个 周期 内 输出 一 个 字 ， 直 到 完成 所 需要 读 出 的 字数 为 止 。 图 3-41 是 从 图 3-37a 修 
改 而 来 ， 只 是 这 里 多 了 一 个 BLOCK 信和 号 来 表示 主 设备 要 求 成 块 传送 。 图 3-42 中 ， 读 出 一 个 
4 个 字 组 成 的 块 只 用 了 6 个 周期 ， 而 不 是 12 个 。 


T, 


Kan 


A 








Vo 
图 3-42 8259A 中 断 控制 器 的 用 法 


还 有 别 的 总 线 周期 。 例 如 ， 在 一 条 总 线 上 有 两 个 或 更 多 个 CPU 的 多 处 理 器 系统 中 ， 对 于 
内 存 中 某 些 临界 的 数据 结构 ， 常 常 需要 保证 在 某 一 时 间 只 能 有 一 个 CPU 进行 访问 。 实 现 这 个 
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要 求 的 常用 办 法 是 在 内 存 中 设置 一 个 变量 ， 当 它 的 值 为 0 时 表示 没有 CPU 使 用 该 数据 结构 ， 
为 1 时 表示 数据 结构 正在 使 用 。 若 某 个 CPU 要 得 到 对 数据 结构 的 访问 权 ， 它 必须 首先 读 这 个 
变量 ， 只 有 变量 为 0 时 ， 才 能 得 到 访问 权 ， 并 将 变量 置 为 1。 麻 烦 的 是 ， 如 果 运 气 不 好 ， 两 
个 CPU 在 连续 的 两 个 总 线 周 期 内 分 别 读 取 这 个 变量 时 ， 每 个 CPU 都 将 读 到 该 变量 为 0， 又 都 
将 它 设置 为 1， 然后 就 想当然 地 认为 自己 是 使 用 该 数据 结构 的 唯一 的 CPU。 这 种 情况 下 ， 就 
会 出 现 混乱 。 

为 防止 这 种 情况 发 生 ， 在 多 处 理 器 系统 中 ， 经 常用 一 种 特殊 的 读 - 改 - 写 总 线 操作 ， 使 
任何 CPU 可 以 在 不 释放 总 线 使 用 权 的 情况 下 ， 从 内 存 中 读 人 一 个 字 ， 检 查 并 修改 该 字 ， 然 后 
将 它 写 回 到 内 存 中 。 这 种 总 线 操作 防止 了 其 他 CPU 争 用 正在 被 使 用 的 总 线 ， 使 它们 无 法 干扰 
第 一 个 CPU 的 总 线 操作 。 

另外 一 种 重要 的 总 线 操作 是 处 理 中 断 的 总 线 操作 。 当 CPU 发 出 命令 ， 要求 输入 /输出 设 
备 完 成 某 项 任务 时 ， 它 通常 希望 在 任务 完成 后 能 得 到 一 个 中 断 信 号 。 这 个 信号 需要 使 用 总 线 。 

由 于 可 能 有 多 个 设备 会 同时 引起 中 断 ， 我 们 又 要 面 对 前 面 遇 到 过 的 普通 总 线 周 期 的 仲裁 
问题 。 通 常 的 解决 办 法 是 对 每 个 设备 设 定 一 个 优先 级 ， 并 用 一 个 集中 式 仲裁 器 将 最 高 优先 级 
赋 给 时 间 要 求 最 急迫 的 设备 。 目 前 已 经 有 了 标准 的 中 断 控 制 器 芯片 ， 并 已 得 到 广泛 应 用 。 基 
于 Intel 处 理 器 的 PC 中 ， 芯 片 组 内 集成 了 一 个 8259A 中 断 控 制 器 ， 如 图 3-42 所 示 。 

最 多 可 以 有 不 超过 8 个 8259A 输入 /输出 设备 的 控制 器 芯片 可 以 直接 和 8259A 的 8 个 中 
断 请 求 信 号 IRx 连接 ， 作 为 输入 信号 。 当 其 中 任何 设备 需要 产生 中 断 时 ， 它 对 自己 对 应 的 输 
入 信和 号 发 出 中 断 请 求 。8259A 收 到 一 个 或 多 个 中 断 请 求 的 输入 信号 后 ， 发 出 中 断 信号 INT (中 
断 请 求 )， 这 个 信号 直接 和 CPU 的 中 断 管 脚 相连 。 当 CPU 能 够 响应 中 断 时 ， 它 在 中 断 响应 
信号 INTA (中 断 应 答 ) 上 对 8259A 发 回 一 个 脉冲 。 此 时 ，8259A 要 通过 在 数据 总 线 上 输出 
中 断 号 ， 对 CPU 说 明 是 哪个 设备 引起 的 中 断 。 这 种 操作 需要 有 一 个 特定 的 总 线 周 期 。 然 后 ， 
CPU 中 的 硬件 就 可 以 用 这 个 数 作 为 下 标 去 查 中 断 向 量 表 (interrupt vector )， 得 到 处 理 该 中 断 
的 程序 的 人 口 地 址 。 

8259A 的 内 部 有 几 个 寄存 器 ，CPU 可 以 用 普通 的 总 线 操作 和 读 信 号 RD、 写 信号 WR, 
片 选 信号 CS 及 Ao 管 脚 对 它们 进行 读 写 。 当 软件 处 理 完 中 断 ， 并 做 好 准备 可 以 处 理 下 一 个 中 
断 时 ， 它 就 在 这 些 寄 存 器 中 之 一 写 人 一 个 特定 的 代码 ， 这 可 以 让 8259A 将 INT 信和 号 置 反 ， 除 
非 它 里 面 还 有 一 个 中 断 信号 正 等 待 处 理 。 向 这 些 寄存 器 中 写 人 不 同 的 值 ， 可 以 使 8259A 进入 
不 同 的 状态 ， 可 以 屏蔽 一 些 中 断 ， 并 开放 其 他 的 一 些 特性 。 

当 计算 机 有 超过 8 个 输入 /输出 设备 时 ，8259A 可 以 被 层 释 起 来 。 在 最 极端 的 情况 下 ， 
它 所 有 的 8 个 输入 端 可 以 分 别 和 男 外 8 片 8259A 的 输出 端 相连 ,最 多 可 以 接 64 个 输入 /输出 
设备 ， 组 成 两 级 中 断 网 络 。 在 Core i7 芯片 组 中 ， 有 1 个 Intel ICH10 输入 /输出 控制 器 hub 芯 
片 ， 它 里 面包 含 了 2 个 8259A 中 断 控制 器 ， 使 ICH10 提供 IS 个 外 部 中 断 管 脚 ， 而 剩 下 的 1 
个 就 被 用 来 层 琶 另外 的 8259A. 8259A 有 几 个 管 脚 就 是 为 了 实现 层 又 而 设置 的 ， 在 图 3-43 中 
我 们 为 了 简化 而 没有 标 出 。 目 前 ,“8259A” 已 经 不 再 有 单独 的 芯片 ， 而 成 为 其 他 芯片 的 组 成 
部 分 。 

以 上 这 些 内 容 绝 对 没有 穷尽 总 线 设 计 的 所 有 问题 ， 但 应 该 说 还 是 给 出 了 足够 的 背景 知识 ， 
可 以 让 大 家 了 解 总 线 的 工作 原理 以 及 CPU 是 如 何 和 总 线 进行 交互 的 。 下 面 ， 就 让 我 们 从 一 般 
的 介绍 转移 到 讨论 几 个 具体 的 CPU 和 它们 使 用 的 总 线 的 例子 。 
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3.5 CPU 芯片 举例 


本 节 我 们 在 硬件 层次 上 讨论 Intel Core i7, TI OMAP4430 和 Atmel ATmegal68 三 种 CPU 
芯片 的 一 些 细节 。 


3.5.1 Intel Core i7 


Core i7 是 用 于 最 早 的 IBM PC 机 的 8088 CPU KARAJ. 2008 年 11 月 ， 第 一 片 Corei 7 
芯片 发 布 时 ， 它 是 一 个 有 4 个 处 理 器 、7.31 亿 个 晶体 管 的 CPU， 主 频 达 3.2GHz， 芯 片 制造 工 
艺 达到 45 纳米 的 水 平 。 芯 片 制造 工艺 指 连 接 唱 体 管 的 导线 宽度 (也 是 衡量 晶体 管 本 身 大 小 的 
指标 )。 导 线 宽 度 越 小 ， 芯 片上 能 容纳 的 晶体 管 数量 越 多 。Moore 定律 指出 的 处 理 器 能 力 的 基 
本 规律 ， 促 使 硬件 工程 师 不 断 提 高 芯片 工艺 水 平 ， 减 小 导线 宽度 。 作 为 对 照 ， 人 的 头发 直径 
大 约 在 20 000 ~ 100 000 纳米 之 间 ， 金 发 可 能 比 黑 发 更 细 一 些 。 

最 时 发布 的 Core i7 的 体系 结构 是 基于 “Nahalem” 体 系 结构 的 ， 不 过 ， 最 新 版 本 的 Core 
i7 则 转 为 基于 “Sandy Bridge” 体 系 结构 。 在 这 里 ， 体 系 结构 是 指 CPU 的 内 部 构成 ， 通 常会 
用 一 个 代号 来 表示 。 尽 管 大 部 分 都 是 严谨 人 士 ， 但 计算 机 架构 设计 师 有 时 也 会 提出 一 些 十 分 
机 灵 的 名 字 来 命名 他 们 的 项 目 。 其 中 一 个 就 是 AMD 的 K- 系列 体系 结构 ， 是 AMD 设计 用 来 
打破 Intel 在 桌面 CPU 市 场 坚 不 可 挫 的 垄断 地 位 的 一 款 CPU, K- 系列 处 理 器 的 代号 来 自 “和 氮 
星 石 ” ， 这 是 唯一 可 以 伤害 超人 的 一 种 物质 ， 用 来 隐喻 对 占 统治 地 位 的 Intel 的 聪明 一 击 。 

新 的 基于 Sandy Bridge 的 Core i7 制造 工艺 达 32 纳米 ， 主 频 为 3.5GHz, 一 共有 11.6 亿 
个 晶体 管 。 尽 管 它 和 只 有 29 000 个 晶体 管 的 8088 不 可 同日 而 语 ， 但 它 还 是 可 以 完全 向 后 兼 
容 到 8088， 不 加 任何 修改 地 运行 8088 的 执行 程序 (更 不 用 提 那 些 中 间 阶 段 的 处 理 器 的 执行 
程序 了 )。 

从 软件 的 观点 看 ，Core 这 是 一 台 全 64 位 计算 机 。 它 具有 和 80386、80486、Pentium、 
Pentium II, Pentium Pro, Pentium II 以 及 Pentium 4 完全 相同 的 用 户 层 (指令 系统 层 )， 包 括 
相同 的 寄存 器 个 数 、 相 同 的 指令 集 和 在 芯片 内 部 实现 的 IEEE 754 浮 点 标准 。 除 此 之 外 ， 它 还 
有 一 些 打算 用 于 加 密 运算 的 新 指令 。 

Core i7 处 理 器 是 多 核 CPU ， 也 就 是 说 ， 它 的 硅 片 上 包含 多 个 处 理 器 。CPU 销售 时 可 选 装 
2 ~ 6 个 处 理 器 ， 并 在 不 久 的 将 来 有 配置 更 多 处 理 器 的 计划 。 利 用 多 处 理 器 提供 的 并 行 性 ， 程 
序 员 编写 并 行程 序 时 ， 使 用 线程 和 加 锁 技 术 ， 有 可 能 大 幅度 地 提高 程序 的 性 能 。 另 外 ， 单 个 
CPU 可 “ 超 线 程 "”， 也 就 是 可 以 同时 有 多 个 活跃 的 硬件 线程 。 超 线程 (也 被 架构 师 称 为 “同时 
多 线程 ”) 通过 硬件 线程 的 切换 ， 比 较 适 合 诸如 高 速 缓存 缺失 等 延迟 较 短 的 场合 。 而 基于 软件 
的 线程 切换 适合 的 是 长 延迟 的 场合 ， 比 如 “ 缺 页 ”等 ， 因 为 软件 线程 切换 需要 有 数 百 个 时 钟 
周期 的 指令 执行 时 间 。 

在 芯片 内 部 的 微 体 系 结构 层 ，Core i7 称 得 上 是 一 个 非常 优秀 的 设计 。 它 在 体系 结构 上 和 
其 直接 的 前 辈 ， 如 Core 2 和 Core 2Duo 一 脉 相 承 。Core i7 处 理 器 最 多 可 同时 执行 4 条 指令 ， 
使 之 成 为 4 发 射 超标 量 计 算 机 。 我 们 在 第 4 章 再 详细 介绍 这 个 微 体 系 结构 。 

所 有 的 Core i7 都 有 三 级 高 速 缓 存 。 它 的 每 个 核 中 都 有 32KB 的 一 级 (L1 ) 数据 高 速 缓存 
和 32KB 的 一 级 指令 高 速 缓存 。 每 核 中 还 有 256KB 的 二 级 (L2) 高 速 缓存。 二 级 高 速 缓存 是 统 
一 的 ， 也 就 是 说 ， 它 能 同时 缓存 指令 和 数据 。 处 理 器 中 所 有 核 共享 一 个 三 级 (L3 ) 高 速 缓存 ， 
三 级 缓存 根据 处 理 器 型 号 的 不 同 ， 其 大 小 为 4 ~ 15MB。 设置 三 级 缓存 极 大 地 提高 了 处 理 器 的 
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性 能 ， 但 也 消耗 了 许多 硅 片 的 面积 ， 单 个 硅 片 上 Core i7 CPU 的 高 速 缓存 最 多 可 达 17MB。 

由 于 所 有 的 Core i7 芯片 中 都 有 多 个 配 有 私有 数据 高 速 缓存 的 处 理 器 核 ， 所 以 当 某 个 核 修 
改 了 自己 的 私有 数据 缓存 中 的 一 个 字 ， 而 这 个 数据 同时 也 被 缓存 在 其 他 核 的 高 速 缓存 时 ， 问 
题 出 现 了 。 后 一 个 核 试 图 从 存储 器 中 读 取 这 个 字 时 ， 读 出 来 的 是 一 个 过 时 的 数据 ， 因 为 被 修 
改 后 的 高 速 缓存 的 内 容 并 没有 立即 写 回 到 内 存 中 。 为 保持 内 存 的 一 致 性 ， 多 处 理 器 系统 中 的 
每 个 CPU 都 要 监听 内 存 总 线 ， 以 发 现 其 他 CPU 对 自己 高 速 缓 存 中 的 字 进 行 访问 的 行为 ， 并 
在 内 存单 元 提供 数据 之 前 ， 把 正确 的 值 提供 出 去 。 我 们 将 在 第 8 章 讨论 总 线 的 监听 。 

Core i7 系统 中 用 到 了 两 条 主要 的 外 部 总 线 ， 都 属于 同步 总 线 。DDR3 内 存 总 线 用 来 访问 
FH DRAM 构成 的 内 存储 器 ; PCI Express 总 线 用 于 和 输入 /输出 设备 通信 。 高 版 本 的 Core i7 
配备 多 条 内 存 总 线 和 PCI Express 总 线 ， 还 包含 1 个 快速 通道 互 连 (Quick Path Interconnect, 
QPI) 端口 。QPI 端口 将 处 理 器 和 外 部 的 多 处 理 器 系统 互 连 ， 可 和 6 个 以 上 处 理 器 系统 连接 。 
QPI 端口 用 于 发 送 和 接收 高 速 缓存 一 致 性 请 求 ， 还 有 许多 诸如 处 理 器 间 中 断 等 多 处 理 器 管理 
消息 。 

与 大 多 数 其 他 现代 桌面 级 CPU 一 样 ，Core i7 存在 的 一 个 问题 就 是 它 所 需要 耗费 的 能 量 
以 及 由 此 产生 的 热量 。 为 防止 对 CPU 硅 片 造成 
损害 ， 应 在 热量 产生 时 立即 将 其 排出 。Core i7 根 
据 型 号 的 不 同 ， 能 耗 大 约 在 17 ~ 150W 之 间 。 
Ak, Intel 一 直 在 为 他 们 的 CPU 所 产生 的 热量 
寻找 好 的 散热 方式 。 冷 却 技术 和 导热 封装 对 于 保 
护 CPU 免 于 被 烧毁 是 十 分 重要 的 。 

Core i7 KAA WK A 37.5mm 的 LGA 正方 
形 封 装 ， 其 底部 安排 了 1155 个 针脚 ， 其 中 有 286 
个 是 电源 ，360 个 用 来 接地 以 降低 噪声 。 针 脚 粗 
略 地 按 40 x 40 方形 布置 ， 但 中 间 17 x 25 个 是 空 
的 。 另 外 ， 最 外 围 也 缺 了 20 多 个 针脚 ， 使 其 成 
为 一 个 非 对 称 的 形状 ， 以 防止 芯片 插入 到 插座 时 3 oe: 
插 错 。 图 3-43 给 出 了 它 的 物理 引 脚 示意 图 。 AISTII SSSSSSSASS 

Core i7 芯片 使 用 时 会 配备 一 个 安装 台 ， 上 面 = 
有 用 于 散热 的 散热 器 ， 还 有 用 于 降温 的 风 南 - 要。 Coe! SM 不 和 
想 知道 能 量 问题 有 多 大 ， 可 以 把 一 个 150W 的 灯 打 开 ， 让 它 亮 一 段 时 间 后 ， 把 你 的 手 靠近 灯 
泡 (但 不 要 放 上 去 ) 去 感受 一 下 。 这 么 高 的 热量 需要 不 断 地 由 Core i7 处 理 器 驱散 出 去 。 因 
此 ， 如 果 Core i7 超过 了 CPU 的 使 用 年 限 的 话 ， 还 可 以 用 来 做 野营 用 的 炉子 。 

根据 物理 定律 ， 任 何 物体 产生 多 少 热量 ， 就 必须 吸收 多 少 能 量 。 在 用 有 限 的 电池 供电 的 
便携 式 计算 机 中 ， 用 这 么 多 的 能 量 是 不 可 想象 的 ， 因 为 很 快 就 要 将 电池 中 的 能 量 耗 完 。 为 解 
决 这 个 问题 ，Intel 的 办 法 是 ， 当 CPU 空闲 时 ， 就 使 它 进 人 睡眠 状态 ; 当 CPU 可 能 要 空闲 一 
段 时 间 时 ， 就 让 它 进 入 深度 睡眠 状态 。 从 全 面 活 路 到 深度 睡眠 ， 一 共 设 置 了 5 个 状态 级 别 。 
在 中 间 状 态 ， 某 些 功能 部 件 〈 如 高 速 缓存 监听 及 中 断 处 理 ) 处 于 工作 状态 ， 但 其 他 二 些 功能 
部 件 则 被 关 掉 。 在 深度 睡眠 状态 时 ， 寄 存 器 的 值 被 保留 ， 但 高 速 缓存 将 数据 清空 后 被 关 掉 。 
此 时 ， 需 要 有 硬件 信号 才能 将 它 唤 醒 。 我 们 也 无 法 知道 处 于 深度 睡眠 状态 的 Core i7 是 不 是 会 
做 梦 。 
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1. Core i7 5] Fra 2 4 

Core i7 的 1155 个 针脚 中 ，447 个 用 作 信 和 号 线 ，286 个 连接 电源 (有 几 个 不 同 的 电压 )， 
360 个 接地 ， 还 有 62 个 留待 将 来 使 用 。 由 于 有 些 逻 辑 信号 用 了 两 个 或 更 多 个 针脚 ( 如 内 存 的 
地 址 就 要 求 由 多 根 信号 来 表示 )，Core i7 共有 131 种 不 同 的 信号 。 图 3-44 给 出 了 一 个 简化 的 
引 脚 逻辑 图 。 图 中 左边 是 内 存 总 线 的 5 组 主要 的 内 存 总 线 的 信号 ; 右边 是 其 他 各 类 信号 。 


124 18 
DDR3 DRAM 通 道 1 janmo pri 诊断 信号 
124 4 
DDR3 DRAM 通 道 2 散热 管理 信号 
80 10 
PCIe 通 道 chi at 电源 管理 信号 


16 7 
直接 媒体 访问 接口 ae | 一 一 > 电源 感知 信号 














可 变通 显示 接口 


CK 电源 接地 
图 3-44 Core i7 的 引 脚 逻辑 图 204 


下 面 我 们 从 总 线 信号 开始 逐个 说 明 这 些 信号 。 最 前 面 的 两 组 总 线 信号 用 于 兼容 DDR3 的 
DRAM 存储 器 的 接口 ， 包 括 了 提供 给 DRAM 存储 体 的 地 址 、 数 据 、 控 制 信 号 和 时 钟 。Core 
i7 支持 两 个 独立 的 DDR3 DRAM 通道 ， 总 线 时 钟 频率 为 666MHz， 可 在 上 升 沿 和 下 降 沿 传输 
数据 ， 因 此 ， 每 秒 可 传输 1333M 数据 。DDR3 的 数据 宽度 为 64 位 ， 因 此 ， 两 个 DDR3 接口 
可 为 “内 存 饥 俄 ”的 程序 提供 超过 20GB/s 的 数据 。 

第 三 组 总 线 是 PCI Express 的 接口 ， 用 于 将 外 部 设备 直接 连接 到 Core i7 CPU。PCI Express 
是 一 个 高 速 串 行 接口 ， 每 条 串 行 链 路 构成 一 个 和 外 设 通信 的 “信道 ”。Core i7 链 路 是 一 个 16x 
的 接口 ， 即 它 能 同时 利用 16 个 信道 传输 数据 ， 使 总 带宽 达到 16GB/s。 尽 管 它 仅 仅 是 个 串 行 通 
iÑ, {H PCI Express 链 路 上 运行 着 许多 命令 ， 包 括 设 备 读 、 写 、 中 断 及 建立 配置 等 。 

再 下 一 组 总 线 是 直接 媒体 访问 接口 DMI (Direct Media Interface )， 用 于 连接 Core i7 CPU 
和 它 的 伴随 芯片 组 。DMI 接口 和 PCI Express 接口 类 似 ， 只 是 其 速度 大 概 为 PCI Express 的 一 
半 ， 因 为 它 的 4 个 信道 仅 能 提供 最 多 2.5GB/s 的 传输 速率 。CPU 芯片 组 为 外 部 设备 提供 了 丰 
富 的 接口 支持 ， 一 般 情 况 下 ， 高 端 计 算 机 系统 总 是 要 连接 许多 IO 设备 。Core i7 的 芯片 组 由 
P67 Al ICH10 两 个 芯片 组 成 。P67 芯片 可 以 看 成 是 芯片 中 的 瑞士 军刀 ,提供 了 SATA, USB, 
声 频 、PCIe 和 Flash 存储 器 的 接口 。ICHI10 芯片 提供 对 旧 的 接口 的 支持 ， 包 括 PCI 接 口 和 
8259A 中 断 控制 等 。 另 外 ，ICH10 还 包含 少量 其 他 电路 ， 如 实时 时 钟 、 事 件 计时 器 以 及 直接 
存储 访问 (DMA ) 控制 器 等 。 有 了 这 些 芯 片 可 以 极 大 地 简化 整 台 PC 机 的 构造 。 

Core i7 可 以 被 配置 成 以 和 8088 同样 的 方式 使 用 中 断 信 号 ( 为 保证 向 后 兼容 )， 也 可 以 通 
过 一 个 名 为 高 级 可 编程 中 断 控制 器 ( Advanced Programmable Interrupt Controller，APIC ) 的 
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设备 来 使 用 一 套 全 新 的 中 断 系 统 。 

Core i 可 以 运行 在 它 允 许 的 几 种 电压 下 ,但 首先 得 告诉 它 用 的 是 哪 一 种 。 电 源 管理 信号 
就 是 用 来 自动 选择 电源 的 电压 ， 告 诉 CPU 电源 是 否 稳 定 ， 以 及 其 他 有 关 电 源 的 事项 。 管 理 不 
同 的 睡眠 状态 也 是 通过 它们 来 完成 的 ， 因 为 睡眠 就 是 为 节 电 而 设计 的 。 

尽管 采用 了 尖端 的 电源 管理 技术 ，Core i7 依然 会 变 得 很 热 。 为 保护 硅 片 ， 每 个 Core i7 
处 理 器 都 有 多 个 内 部 热 传 感 器 ， 用 来 监测 芯片 何 时 过 热 。 散 热管 理 信号 就 是 为 解决 热量 问题 
而 设计 的 ， 让 CPU 可 以 表示 它 正 处 于 过 热 的 危险 环境 中 。 其 中 有 一 个 信号 表示 CPU 的 内 部 
温度 是 否 已 经 达到 130C (266°F )。 如 果 CPU 真 达到 了 这 个 温度 ， 它 可 能 正在 梦想 着 退休 ， 
然后 去 承担 野营 炉 的 工作 。 

就 算是 到 了 野营 炉 的 温度 ， 你 也 不 必 担 心 Core i7 的 安全 。 如 果 内 部 传感器 监测 到 处 理 器 
过 热 ， 它 会 启动 过 热 调 节 ， 这 是 一 项 让 CPU 仅 在 第 W 个 时 钟 周期 工作 ， 以 快速 减少 热量 产生 
的 技术 。N 值 越 大 ， 处 理 器 调节 度 越 大 ， 它 的 温度 下 降 越 快 。 当 然 ， 过热 调节 的 代价 是 降低 
了 系统 的 性 能 。 在 过 热 调 节 技 术 发 明之 前 ， 如 果 热 却 系统 故障 ，CPU 可 能 会 被 烧毁 。CPU 热 
量 管理 的 这 个 黑暗 阶段 的 证 据 可 以 在 YouTube 上 搜索 “exploding CPU”( 爆炸 的 CPU )。 该 段 
视频 是 假 的 ， 但 所 提示 的 问题 是 真实 的 。 

时 钟 信号 为 CPU 提供 系统 时 钟 ， 在 内 部 用 来 根据 系统 时 钟 进行 分 频 和 倍 频 ， 以 生成 所 需 
要 的 各 类 时 钟 。 是 的 ， 通 过 使 用 一 个 非常 灵巧 的 延 时 锁定 回路 DLL ( Delay-locked Loop ) 设 
备 ， 是 有 可 能 生成 系统 时 钟 的 倍 频 时 钟 信号 的 。 

诊断 信号 包括 那些 用 于 根据 IEEE 1149.1 JTAG (Joint Test Action Group， 联 合 测试 行动 
小 组 ) 测试 标准 来 对 系统 进行 测试 和 调试 的 信和 号。 最 后 ， 其 他 信号 是 一 个 大 杂烩 ,各 有 各 自 
的 用 途 。 

2. Core i7 DDR3 内 存 总 线 上 的 流水 

现代 的 CPU， 如 Core i7， 对 DRAM 存储 器 有 很 高 的 要 求 。 单 个 处 理 器 提出 的 数据 请 求 
已 经 超过 了 慢 速 的 DRAM 所 能 提供 数据 的 速度 ， 而 多 处 理 器 同时 请 求 数据 更 使 这 个 问题 雪上 
加 霜 。 为 防止 CPU 对 数据 “ 吃 不 饱 "， 有 必要 使 存储 器 达到 它 可 能 的 最 大 吞 叶 量 。 为 此 ，Core 
i7 的 DDR3 内 存 总 线 工作 在 流水 方式 下 ， 最 多 时 可 以 同时 有 4 个 内 存 事务 运行 。 在 第 2 章 中 ， 
我 们 已 经 了 解 了 CPU 流水 的 基本 概念 〈 见 图 2-4 )， 内 存 也 可 以 实现 类 似 的 流水 操作 。 

为 实现 流水 ，Core i7 的 内 存 请 求 ， 被 划分 为 3 个 阶段 : 

1) KF “WER” (ACTIVATE) 阶段 。 在 这 个 阶段 ,“ 打 开 ”DRAM 存储 器 的 某 行 ， 使 它 
做 好 接收 后 续 存 储 访问 请 求 的 准备 。 

2 ) 内 存 “ 读 ”(READ ) 或 “ 写 ”( WRITE ) 阶段 。 此 时 ， 可 对 被 打开 的 DRAM 行进 行 
多 次 读 单个 字 的 访问 ， 或 采用 突 发 ( burst ) 模式 对 该 行 顺序 写 人 多 个 字 。 

3 )“ 预 充电 ”( PRECHARGE ) 阶段 。 这 个 阶段 ,“ 关 闭 ” 当 前 的 DRAM 存储 器 行 ， 并 做 
好 下 次 进入 “活跃 ”( ACTIVATE ) 阶段 的 准备 。 

Core i7 能 流水 访问 存储 器 的 秘密 在 于 DRAM 芯片 中 包含 多 个 DDR3 DRAM 存储 体 。 一 
个 存储 体 指 DRAM 中 的 一 个 存储 块 ， 同 一 芯片 中 的 多 个 存储 体 也 可 被 并 行 访问 。 典 型 的 
DDR3 DRAM 芯片 中 最 多 有 8 个 DRAM 存储 体 ， 尽 管 DDR3 接口 规范 中 ， 单 个 DDR3 信道 
最 多 允许 4 个 并 发 访问 。 图 3-45 给 出 了 Core i7 对 3 个 不 同 的 DRAM 存储 体 进行 4 次 存储 访 
问 的 时 序 图 。 这 些 访 问 都 是 重 释 进行 的 ， 比 如 ， 在 同一 个 DRAM 芯片 中 并 行进 行 读 操作 。 时 
序 图 中 通过 箭头 来 表示 哪些 命令 引起 了 后 续 的 操作 。 
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图 3-45 Core i7 的 DDR3 接口 上 的 流水 内 存 访问 请 求 


如 图 3-45 所 示 ，DDR3 内 存 接口 有 4 组 主要 信号 : 总 线 时 钟 (CK) BRAS (CMD), 
地 址 (ADDR ) 和 数据 (DATA )。 总 线 时 钟 信 号 CK 协调 所 有 总 线 活动 。 总 线 命令 CMD 指示 
所 连接 的 DRAM 进行 何 种 动作 ，ACTIVATE 命令 通过 地 址 信号 ADDR 给 出 要 访问 的 DRAM 
的 行 地 址 。 当 发 出 READ 命令 时 ，ADDR 信号 上 给 出 总 线 列 地 址 ， 然 后 ，DRAM 经 过 一 个 固 
定 的 时 延 后 ， 在 DATA 信号 线 上 给 出 所 读 出 的 值 。 最 后 ，PRECHARGE 命令 指示 ADDR 信号 
给 出 的 存储 体 进行 充电 。 在 图 3-46 的 示例 中 ，ACTIVATE 命令 必须 领先 同一 存储 体 的 第 一 个 
READ 命令 2 个 DDR3 总 线 周 期 ， 而 数据 在 READ 命令 之 后 紧 跟着 的 总 线 周期 就 会 被 送出 。 
另外 ，PRECHARGE 操作 也 必须 在 同一 DRAM 存储 体 的 最 后 一 个 READ 操作 之 后 至 少 2 个 
总 线 周期 才能 进行 。 

图 3-45 中 ,我们 可 看 到 对 于 不 同 DRAM 存储 体 有 重 芭 进行 的 读 操 作 ， 体现 出 存储 访问 
请 求 的 并 行 性 。 前 两 次 对 存储 体 0 和 存储 体 1 的 读 操 作 完 全 是 重 释 的 ， 分 别 在 周期 3 和 周期 
4 得 到 了 结果 。 对 存储 体 2 的 访问 和 第 1 次 对 存储 体 1 的 访问 部 分 重 释 ， 最 后 ， 第 2 次 对 存 
储 体 0 的 读 操作 也 和 对 存储 体 2 AoE 

XAT, ERAN, Core 这 是 怎么 知道 它 发 出 的 READ 命令 何 时 能 得 到 结果 呢 ? 而 它 何 
时 又 能 发 出 一 个 新 的 存储 访问 命令 呢 ? 答案 是 因为 它 对 每 个 连接 在 DDR3 上 的 DRAM 的 所 有 
活动 都 建立 了 模型 ， 这 样 ， 它 能 正确 预知 返回 的 数据 的 时 钟 周期 ， 也 知道 在 上 一 个 读 命 令 后 
2 个 周期 内 应 避免 发 出 PRECHARGE 命令 。 而 Core i7 能 预测 所 有 活动 的 原因 是 DDR3 存储 
接口 是 一 个 同步 存储 接口 。 也 就 是 说 ， 所 有 的 活动 需要 占用 的 DDR3 总 线 周期 数 是 众所周知 
的 。 当 然 ， 即 使 了 解 了 以 上 这 些 知 识 ， 要 构造 一 个 高 性 能 且 能 顺畅 流水 的 DDR3 存储 接口 也 
是 一 项 十 分 困难 的 任务 ， 需 要 有 许多 计时 器 以 及 冲突 检测 器 ， 来 有 效 处 理 DRAM 请 求 。 


3.5.2 德州 仪器 的 OMAP4430 片上 系统 


作为 我 们 的 CPU 芯片 的 第 二 个 例子 ， 现 在 我 们 一 起 来 看 一 看 德州 仪器 公司 CTI) 的 
OMAP4430 片上 系统 (SoC )。OMAP4430 实现 了 ARM 指令 集 ， 其 针对 的 是 移动 和 骨 人 式 应 
用 ， 如 智能 电话 、 平 板 电脑 和 互联 网 设备 。 确 切 地 说 ， 片 上 系统 结合 多 种 设备 ， 例 如 SoC 和 
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实际 外 部 设备 ( 触摸 屏 、 闪 存 等 ) 组 合 在 一 起 ， 构 成 了 一 个 完整 的 计算 设备 。 

OMAP4430 片上 系统 包括 2 个 ARM A9 核 、 附 加 的 加 速 器 ， 以 及 多 种 外 部 设备 接口 。 图 3-46 
给 出 了 OMAP4430 的 内 部 组 成 。ARM A9 核 具 备 2- 发 射 超标 量 微 体 系 结构 ， 另 外 ，OMAP4430 FE 
片上 有 3 个 以 上 的 加 速 处 理 器 ， 即 图 形 处 理 器 POWERVR SGX540、 图 像 信号 处 理 器 ISP 和 视频 信 
号 处 理 器 IVA3。SGX540 和 桌面 PC 的 GPU 类 似 ， 提 供 有 效 的 可 编程 3D 泻 染 ， 只 是 更 小 、 更 慢 
一 些 。ISP 是 用 于 图 像 处 理 的 可 编程 处 理 器 ， 一 些 高 端 数码 相机 要 用 它 进 行 图 像 处理 。IVA3 实现 
了 有 效 的 视频 编码 与 解码 ， 性 能 足以 支持 手持 游戏 机 上 的 3D 应 用 。OMAP4430 上 还 包含 多 
种 外 部 设备 接口 ， 如 触摸 屏 和 小 键盘 控制 器 、DRAM 和 Flash 接口 、USB、HDMI 等 。 德 州 
仪器 公司 对 OMAP 系列 CPU 有 详细 的 路 线 图 ， 未 来 的 设计 中 将 更 为 应 有 尽 有 ， 比 如 更 多 的 
ARM 核 、 更 多 的 GPU 和 种 类 更 为 丰富 的 外 部 设备 。 
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图 3-46 OMAP4430 片上 系统 内 部 组 织 


OMAP4430 片上 系统 于 2011 年 早期 推出 ， 带 有 2 个 ARM A9 核 ， 主 频 1GHz， 硅 片 生产 
工艺 为 45 纳米 。OMAP4430 设计 上 的 一 个 关键 特点 是 它 可 在 较 低 能 耗 下 完成 大 量 的 计算 ， 因 
为 其 设计 目标 就 是 用 于 由 电池 供电 的 移动 应 用 场合 。 在 这 类 场合 中 ,设计 越 好 ， 用 户 充电 后 
使 用 设备 的 时 间 越 长 。 

OMAP4430 的 多 个 处 理 器 被 精心 设置 ， 可 各 自 完成 它们 的 低能 耗 运算 。 图 形 处 理 器 、ISP 
和 IVA3 均 是 可 编程 的 加 速 器 ， 与 相同 的 任务 在 ARM A9 核 中 单独 运行 比较 ， 其 可 在 较 低能 
耗 下 提供 更 高 的 计算 能 力 。 满 负荷 工作 情况 下 ，OMAP4430 片上 系统 的 功 耗 为 600 2H, AE 
耗 仅 为 高 端 Core i7 的 1/250. OMAP4430 也 有 有 效 的 睡眠 模式 : 当 所 有 组 件 进 入 睡眠 时 ， 它 
的 功 耗 仅 为 100 微 瓦 。 有 效 睡 眠 模式 对 于 手机 等 移动 应 用 十 分 重要 ， 直 接 影响 其 待机 时 间 。 
睡眠 模式 下 功 耗 越 低 ， 手 机 待机 时 间 越 长 。 

为 进一步 降低 OMAP4430 的 能 量 需求 ， 设 计 中 还 应 用 了 许多 其 他 的 能 量 管理 手段 ， 包 括 
动态 电压 调节 (Dynamic Voltage Scaling ) 和 门 控 电 源 (Power Gating) 技术 。 动 态 电 压 调 节 即 
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让 组 件 在 一 个 较 低 的 电压 下 工作 ， 可 大 幅度 减少 能 量 的 需求 。 当 用 户 不 需要 CPU 全 速 计 算 时 ， 
OMAP4430 可 以 降低 CPU 的 电压 ， 使 其 工作 在 低速 状态 ， 以 节省 更 多 的 能 量 。 门 控 电 源 是 一 
种 更 为 激进 的 能 量 管理 技术 ， 当 不 需要 使 用 CPU 的 某 个 组 件 时 , 干脆 把 它 的 电源 断 掉 ， 使 其 不 
需要 耗 能 。 例 如 ， 在 平板 电脑 应 用 中 ， 用 户 不 看 电影 时 ， 就 可 将 IVA3 视频 处 理 器 断 电 ; 相反 ， 
用 户 看 电影 时 ，IVA3 处 理 器 全 速 完成 其 视频 解码 任务 ， 可 让 两 个 ARM A9 核 进入 睡眠 状态 。 

除了 上 述 节 省 能 耗 的 操作 外 ，ARM A9 核 还 采用 了 十 分 高 效 的 微 体系 结构 。 它 在 每 个 周 
期 译 码 和 执行 至 多 2 条 指令 。 我 们 将 在 第 4 章 学 到 ， 这 个 执行 速度 代表 了 该 微 体系 结构 的 最 
大 吞吐 率 。 但 也 不 要 预期 它 每 个 周期 都 能 执行 这 么 多 的 指令 ， 而 应 把 它 理解 为 制造 商 保证 的 
处 理 器 任何 情况 下 都 不 会 超越 的 最 高 性 能 。 由 于 指令 间 存 在 的 各 种 “冲突 ”会 拖延 指令 的 执 
行 ,许多 周期 下 执行 的 指令 会 少 于 2 条 ， 导 致 更 低 的 指令 吞吐 率 。 为 解决 这 些 执 行 性 能 问题 ， 
ARM A9 设计 了 强 有 力 的 分 支 预测 、 乱 序 指令 调度 和 高 度 优化 的 存储 系统 。 

OMAP4430 的 存储 系统 中 ， 为 每 个 ARM A9 处 理 器 设置 了 2 个 主要 的 内 部 LI 高 速 缓存 ， 
一 个 是 32KB 的 指令 缓存 ， 另 一 个 是 32KB 的 数据 缓存 。 和 Core i7 一 样 ， 它 也 有 片上 二 级 组 
F (L2 )， 只 是 缓存 容量 相对 较 小 ， 为 MB， 而 且 是 由 两 个 ARM A9 核 共 享 的 。 高 速 缓存 由 
双 LPDDR2 低能 耗 DRAM 通道 提供 数据 ，LPDDR2 是 从 DDR2 存储 接口 标准 改进 而 来 ， 改 
用 了 更 少 的 导线 ， 并 使 其 运行 在 能 耗 更 有 效 的 电压 下 。 另 外 ， 存 储 控制 器 进行 了 一 系列 存储 
访问 优化 ， 如 对 数据 预 取 技术 和 预 处 理 技术 的 支持 。 

虽然 我 们 到 第 4 章 才 详细 讨论 高 速 缓存 (cache )， 但 在 这 里 简单 说 几 名 还 是 有 必要 的 。 
整个 内 存 被 划分 为 32 字 节 大 小 的 高 速 缓存 行 (H), EP, CPU 访问 最 多 的 1024 个 指令 行 和 
1024 个 访问 最 多 的 数据 行 的 内 容 被 装 人 到 第 一 级 (LI1 ) 高 速 缓存 中 。 而 依然 被 经 常 访问 但 又 
不 能 放 到 L1 级 高 速 缓存 中 的 内 容 被 装 人 到 L2 级 高 速 缓存 中 。L2 级 高 速 缓存 中 随机 包含 两 个 
ARM A9 核 所 需 访问 的 指令 行 和 数据 行 ， 也 就 是 最 近 被 访问 到 的 32 768 行 指令 和 数据 。 

LI 级 高 速 缓存 缺失 时 ，CPU 将 现 有 访问 的 行 的 标识 符号 (标记 地 址 ) 发 给 L2 级 高 速 组 
存 。L2 级 高 速 缓存 给 出 应 答 ， 包 括 该 行 是 否 在 L2 级 高 速 缓存 中 ， 如 果 在 ， 该 行 的 状态 如 何 。 
如 果 数 据 已 被 装 入 ， 则 CPU 从 L2 级 高 速 缓存 中 得 到 访问 的 数据 。 从 L2 级 高 速 缓存 中 得 到 
一 个 数据 需要 19 个 周期 。 等 待 数据 的 时 间 有 点 长 ， 聪 明 的 程序 员 应 优化 程序 ， 尽 量 少 访问 数 
据 ， 并 使 之 能 更 多 地 在 更 快 的 LI 级 高 速 缓存 中 找到 数据 。 

如 果 要 找 的 高 速 缓存 行 不 在 L2 级 高 速 缓存 中 ， 则 需要 通过 LPDDR2 存储 接口 从 内 存 中 
访问 数据 。OMAP4430 的 LPDDR2 接口 是 在 芯片 上 实现 的 ， 这 样 ，LPDDR2 DRAM 可 以 直 
接 和 OMAP4430 连接 。 访 问 内 存 时 ，CPU 先 通 过 13 位 地 址 线 将 地 址 的 高 位 部 分 发 给 DRAM 
芯片 。 这 个 操作 ， 称 为 ACTIVATE， 将 DRAM 内 存 中 的 整 行 装 入 到 DRAM 的 行 缓冲 区 中 ， 
然后 ，CPU 发 出 多 个 READ 或 WRITE 命令 ， 将 余下 的 地 址 在 13 位 地 址 线 上 发 出 ， 并 在 32 
位 的 数据 线 上 发 送 (或 接收 ) 数据 。 

等 待 结果 期 间 ，CPU 可 继续 处 理 其 他 工作 。 例 如 ， 预 取 某 条 指令 造成 的 高 速 缓存 缺失 并 不 
会 阻止 已 经 取 到 的 一 条 或 多 条 指令 的 执行 ， 这 些 指令 中 每 条 都 有 可 能 访问 不 在 任何 高 速 缓存 中 
的 数据 。 因 此 ， 两 个 LPDDR2 接口 都 可 能 要 同时 处 理 多 个 内 存 访问 事务 ， 甚 至 是 来 自 同一 处 理 
器 的 多 个 事务 。 总 线 控制 器 负责 跟踪 处 理 这 些 事务 ， 并 用 最 有 效 的 顺序 来 完成 实际 的 内 存 访 问 。 

最 后 ， 当 数据 从 内 存 到 达 时 ， 会 4 个 字 节 同时 到 达 。 存 储 操作 会 采用 突 发 模式 读 或 写 ， 
也 就 是 对 在 同一 DRAM 行 中 的 连续 地 址 单元 进行 读 或 写 。 突 发 模式 对 读 写 高 速 缓存 块 尤 其 有 
效 。 依 然 需要 指出 的 是 ， 上 面 关 于 OMAP4430 的 描述 ， 和 前 面 的 Core i7 一样 ， 是 被 高 度 简 
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化 的 ， 但 把 内 存 访问 操作 的 实质 内 容 描述 清楚 了 。 

OMAP4430 采用 547 针脚 的 球状 网 格 阵列 (PBGA ) 封装 ， 如 图 3-47 所 示 。PBGA 和 
LGA 十 分 类 似 ， 只 是 PBGA 上 用 于 连接 的 针脚 是 小 金属 球 ， 而 LGA 用 的 是 方形 针 。 两 类 封 
装 是 不 兼容 的 ， 正 如 你 不 能 将 方形 针 插 人 到 圆 孔 中 。OMAP4430 封装 是 由 28 x 26 个 小 球 组 成 
的 矩形 阵列 ， 内 部 取消 了 两 环 小 球 。 男 外 ， 为 防止 插入 BGA 插座 时 发 生 错 误 ， 另 在 行 和 列 两 
个 方向 不 对 称 地 取消 了 两 条 线 上 的 小 球 。 

仅 基于 时 钟 速度 来 比较 CISC 芯片 (如 Core i7) 和 RISC 芯片 (如 OMAP4430 ) 是 困难 
的 。 例 如 ，OMAP4430 的 两 个 ARM A9 核 每 个 时 钟 周期 峰值 时 可 执行 4 条 指令 ,使 它 和 Core 
i 的 4- 发 射 超标 量 处 理 器 具有 几乎 相同 的 执行 速度 。 尽 管 如 此 ，Core i7 的 程序 执行 速度 还 是 
更 快 一 些 ， 因 为 它 最 多 有 6 个 处 理 器 ， 且 主 频 速度 (3.5GHz) HE OMAP4430 快 3.5 倍 。 如 把 
Core i7 比 作 人 兔子，OMAP4430 就 是 那 只 乌 包 ， 但 乌 包 耗 能 较 少 ， 且 乌龟 有 可 能 会 更 快 完成 任 
务 ， 尤 其 是 在 兔子 的 电池 不 是 很 大 的 时 候 。 


3.5.3 Atmel 的 ATmega168 微 控制 器 


Core i7 和 OMAP4430 都 是 高 性 能 CPU 的 例子 ， 它 们 设计 用 来 制造 高 性 能 的 计算 设备 ， 
Core i7 主要 面向 桌面 应 用 ， 而 OMAP4430 主要 面向 移动 应 用 。 当 大 多 数 人 们 想起 计算 机 时 ， 
他 们 想到 的 就 是 这 种 系统 。 然 而 ， 还 有 一 类 应 用 更 为 普遍 的 计算 机 ， 即 租 入 式 计算 机 系统 。 
本 节 我 们 简单 地 分 析 一 下 这 类 计算 机 系统 。 

如 果 我 们 说 任何 一 个 价格 高 于 100 美元 的 电子 设备 里 面 都 可 能 有 一 台 计 算 机 的 话 ， 也 许 
仅仅 是 稍微 有 一 点 点 夸张 。 确 实 ， 到 现在 ， 电 视 机 、 移 动 电话 、 个 人 电子 记事 本 、 微 波 炉 、 
便携 式 摄 像 机 、 录 像 机 、 激 光 打 印 机 、 防 盗 自 动 警 铃 、 助 听 器 、 电 子 游戏 机 等 许多 数 不 清 的 
其 他 设备 都 已 经 是 由 计算 机 控制 的 。 这 些 设备 中 的 计算 机 的 共同 特点 是 低 价 格 ， 而 不 是 高 性 
能 ， 和 我 们 前 面 已 经 讨论 的 高 档 CPU 的 发 展 方向 完全 不 同 。 

正如 我 们 在 第 1 章 指出 的 ，Atmel 的 ATmegal168 是 当前 应 用 广泛 的 微 控 制 器 ， 这 当然 首 
先 要 归功 于 它 的 低 价格 ( 约 为 1 美元 )。 我 们 马上 将 谈 到 ， 它 实际 上 还 是 一 个 多 用 途 的 芯片 ， 
这 也 使 它 的 接口 具备 简单 和 价格 低廉 的 特点 。 下 面 ， 我 们 详细 讨论 ATmega168 心 片 ， 图 3-48 
是 它 的 物理 管 脚 图 。 
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图 3-47 OMAP4430 片上 系统 引 脚 图 图 3-48 ATmega168 的 物理 管 脚 图 


从 图 中 可 以 看 到 ，ATmega168 一 般 以 标准 的 28 管 脚 的 封装 出 现 〈 尽 管 也 有 一 些 其 他 封 
R) 乍 一 看 ， 你 可 能 就 注意 到 它 的 物理 管 脚 和 我 们 前 面 讨 论 的 两 个 芯片 不 一 样 ， 特 别 的 是 ， 
这 个 芯片 没有 设置 地 址 和 数据 线 。 其 原因 在 于 它 在 设计 上 仅 需 要 和 设备 进行 连接 ， 而 不 用 和 


二 


内 存 相连 。 它 所 有 的 存储 系统 ， 包 括 SRAM 和 Flash， 都 已 经 和 处 理 器 在 一 起 ， 这 样 ， 可 以 
省 去 地 址 和 数据 管 脚 ， 如 图 3-49 所 示 。 
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图 3-49 ATmegal168 芯片 的 内 部 结构 和 有 逻辑 图 


ATmegal68 中 取代 数据 和 地 址 管 脚 的 是 27 个 数字 输入 /输出 口 ， 其 中 ，PortB Al Port D 各 
有 8 根 管 脚 ，Port C 有 7 根 。 这 些 数字 输入 /输出 口 用 来 连接 IO 设备 ， 每 个 管 脚 可 在 系统 启动 
软件 管理 下 ， 内 部 配置 成 输入 信号 或 者 是 输出 信号 。 例 如 ， 在 使 用 微波 炉 时 ， 某 个 数字 输入 / 
输出 管 脚 可 作为 “开门 ”传感器 的 输入 信号 。 另 一 个 管 脚 可 作为 输出 信号 ， 控 制 微波 发 生 器 的 
启动 和 关闭 的 动作 。ATmega168 中 的 软件 在 启动 微波 发 生 器 前 ， 要 检查 微波 炉 门 是 否 处 于 关闭 
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状态 。 如 果 门 突然 打开 ， 软 件 必须 马上 断 开 电源 。 实 际 应 用 中 ， 还 同时 配置 了 硬件 联动 装置 。 

Port C 的 6 个 输入 管 脚 可 根据 需要 配置 成 模拟 信号 的 输入 /输出 。 模 拟 输入 /输出 管 脚 可 
读 入 一 个 输入 电压 的 量 级 或 者 设置 某 个 输出 电压 的 量 级 。 还 是 以 微波 炉 为 例 ， 有 些微 波 炉 具 
有 将 食物 加 热 到 某 个 给 定 温 度 的 功能 。 这 时 ， 微 波 炉 的 温度 传感器 可 连接 到 Port C 的 一 个 输 
入 端 ， 软 件 会 读 出 传感器 的 电压 值 并 使 用 传感器 专门 的 转换 函数 转换 为 温度 ， 以 此 来 判断 是 
否 应 该 停止 加 热 。ATmegal68 的 其 他 管 脚 包括 电源 输入 (VCC )、2 个 地 管 脚 (GND ) 和 2 个 
用 于 配置 模拟 输入 /输出 电路 的 管 脚 (AREF 、AVCC )。 

ATmegal68 的 内 部 结构 和 OMAP4430 有 点 类 似 ， 也 是 一 个 包含 多 个 内 部 设备 和 存储 器 
的 片上 系统 芯片 。ATmegal168 有 高 达 16KB 的 内 部 Flash 存储器， 可 用 来 存储 不 常 改 变 的 
非 电 易 失 的 信息 ， 如 程序 的 指令 等 。 它 还 包含 1 块 容量 为 IKB 的 EEPROM， 这 是 可 用 软 
件 写 入 的 非 电 易 失 的 存储 器 。EEPROM 中 存储 有 系统 的 配置 数据 。 我 们 还 用 微波 炉 为 例 ， 
EEPROM 可 保存 1 个 标志 位 ， 用 来 指示 微波 炉 上 时 钟 的 显示 格式 为 12 小 时 制 还 是 24 小 时 
制 。ATmegal168 还 集成 了 一 块 1KB 的 内 部 SRAM， 程 序 可 用 它 来 存储 临时 的 数据 变量 。 

芯片 的 内 部 处 理 器 运行 的 是 AVR 指令 集 ， 由 131 条 指令 组 成 ， 每 条 指令 字 长 16 位 。 处 
理 器 本 身 是 8 位 ， 也 就 是 它 只 能 处 理 8 位 数据 ， 其 内 部 寄存 器 也 是 8 位 。 指 令 集中 包含 一 些 
特殊 指令 ， 可 以 使 8 位 处 理 器 有 效 地 处 理 更 长 的 数据 类 型 。 例 如 ， 为 完成 16 位 或 更 长 数据 的 
加 法 ， 处 理 器 提供 了 “ 带 进 位 加 ”指令 ， 可 以 完成 两 个 数据 及 来 自前 面 加 法 指令 的 进位 的 加 
法 运算 。 除 此 之 外 ， 芯 片 内 还 包含 实时 时 钟 部 件 和 一 系列 接口 逻辑 ， 如 串口 链 路 、 脉 冲 宽度 
调制 (PWM ) 链 路 、I2C ( 内 部 -IC 总 线 ) 链 路 和 模拟 输入 / 输出 控制 等 。 


3.6 ”总 线 举 例 


总 线 可 以 说 是 计算 机 系统 的 粘 接 剂 。 本 节 我 们 详细 讨论 几 条 常用 的 总 线 : PCI ARANA 
用 串 行 总 线 USB. PCI 总 线 是 当前 PC 中 最 主要 的 IO 外 围 总 线 。 它 有 两 种 形式 ， 一 是 老 旧 一 
些 的 传统 PCI 总 线 ， 另 一 种 是 更 快 的 PCI Express (PCIe ) 总 线 。 通 用 串 行 总 线 USB 是 逐渐 
流行 起 来 的 IO 总 线 ， 主 要 用 于 连接 键盘 、 鼠 标 之 类 的 慢 速 外 设 。 第 2 版 和 第 3 版 的 USB 总 
线 速度 有 了 明显 的 提高 。 下 面 几 个 小 节 ， 我 们 分 别 对 它们 的 运行 原理 加 以 介绍 。 


3.6.1 PCI 总 线 


早期 [BM PC 的 大 多 数 应 用 是 基于 文本 的 。 后 来 ， 随 着 Windows 的 推出 ,逐渐 开始 使 用 
图 形 用 户 界面 。 开 始 时 ， 还 没有 任何 应 用 对 ISA 总 线 增 加 太 多 的 压力 。 然 而 ， 随 着 时 间 的 推 
移 ， 许 多 应 用 ,尤其 是 多 媒体 游戏 ， 开 始 用 计算 机 显示 全 屏 、 全 动感 的 图 像 ， 彻 底 改 变 了 计 
算 机 的 应 用 状况 。 

证 我 们 先 做 一 个 简单 的 计算 。 假 设 显示 器 的 分 辩 率 为 1024x768， 用 来 显示 真 彩色 (3 
字 节 /像素 ) 的 视频 ， 每 帧 的 数据 量 就 是 2.25MB。 为 使 图 形 不 致 闪 烁 ， 每 秒 钟 至 少 要 显示 
30 帧 ， 数 据 的 传输 速度 应 达到 67.5MB/s。 实 际 上 的 情况 更 加 严峻 ， 因 为 如 果 要 显示 从 硬盘 、 
CD-ROM 或 DVD 中 取出 的 图 像 的 话 ， 数 据 必须 先 从 磁盘 驱动 器 通 过 总 线 传输 到 内 存 。 然 后 ， 
数据 还 要 再 次 通过 总 线 传输 到 图 形 适 配器 才能 显示 出 来 。 这 样 ， 我 们 仅仅 为 显示 图 像 就 需要 
的 带宽 就 是 135MB/s 的 带宽 ， 这 还 没有 计算 CPU 和 其 他 设备 需要 的 带宽 。 

PCI 总 线 的 前 任 ， 也 就 是 ISA 总 线 ， 最 高 传输 频率 是 8.33MEHz， 每 个 周期 可 以 传输 2 字 
节 ， 带 宽 最 多 也 就 是 16.7MB。 增 强 型 的 ISA 总 线 ， 即 EISA BA, 每 周期 可 以 传输 4 字 节 ， 
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带宽 达到 了 33.3MB/s。 显 然 ， 它 们 都 远 不 能 满足 全 屏 显 示 视 频 的 需要 。 

而 对 于 全 高 清 视 频 ， 情 况 则 更 为 糟糕 。 全 高 清 要 求 每 秒 播放 30 Wt 1920 x 1080 的 视频 帧 ， 
数据 传输 率 高 达 155MB/s( 如 果 考 虑 数据 在 总 线 上 传输 两 次 ， 则 为 310MB/s )。 显 然 ，EISA 
总 线 离 此 要 求 还 有 太 远 的 距离 。 

1990 年 ，Intel 预见 到 这 个 情况 ， 并 设计 了 一 条 新 的 总 线 ， 其 带宽 比 EISA 总 线 要 高 。 这 
就 是 PCI 总线 (Peripheral Component Interconnect Bus， 外 部 组 件 互 连 总 线 )。 为 鼓励 对 这 个 
总 线 的 使 用 ，Intel 申请 了 PCI 总 线 的 专利 ， 然 后 将 专利 公之于众 ， 这 样 ， 任 何 公司 都 可 以 生 
产 使 用 PCI 总 线 的 外 部 设备 ， 而 不 需要 付 任何 专利 费 。Intel 还 成 立 了 一 个 行业 联盟 、PCI 特 
别 利益 集团 ， 来 管理 PCI 总 线 的 未 来 ， 这 也 使 得 PCI 总 线 的 使 用 越 来 越 流行 。 事 实 上 ， 从 
Pentium 开始 ， 每 台 基 于 Intel 的 计算 机 ， 以 及 其 他 的 一 些 计算 机 ， 都 配置 了 PCI BA, AK 
PCL 总 线 的 详细 资料 ， 可 以 参阅 Shanley 和 Anderson ( 1999 )、Solari 和 Willse ( 2004 )。 

最 早 的 PCI 总 线 每 个 周期 传输 32 位 ， 频 率 为 33MHz ( 总 线 周 期 为 30 纳 秒 )， 总 的 带宽 
为 133MB/s。1993 年 推出 了 PCI 2.0, 1995 年 又 推出 了 PCI 2.1。PCI 2.2 中 有 些 专 为 便携 式 
计算 机 设计 的 特性 (主要 是 节省 电池 的 能 量 )。PCI 总 线 的 最 高 频率 是 66MHz， 并 能 以 64 位 
传输 ， 最 高 带宽 可 达 528MB/s。 有 了 这 样 的 传输 能 力 ， 全 屏 、 全 动感 视频 显示 是 完全 可 行 的 
(假定 磁盘 和 系统 的 其 他 设备 可 以 保证 速度 )。 在 任何 情况 下 ，PCI 总 线 都 不 会 成 为 瓶颈 。 

尽管 528MB/s 的 速度 看 起 来 已 经 十 分 快 了 ， 但 它 还 是 存在 两 个 问题 。 第 一 ， 它 不 适合 做 
内 存 总 线 。 第 二 ， 它 无 法 兼容 所 有 旧 的 ISA 卡 。Intel 想 出 来 的 解决 方案 是 为 计算 机 设计 三 条 
或 更 多 的 总 线 ， 如 图 3-50 所 示 。 图 3-50 中 ，CPU 可 以 通过 特 设 的 内 存 总 线 和 内 存 交 换 数据 ， 
而 且 PCI 总 线 上 还 可 以 连接 一 条 ISA 总 线 。 这 个 设计 可 以 满足 上 面 所 有 的 要 求 ， 因 此 , 在 20 
世纪 90 年 代 得 到 了 广泛 的 应 用 。 
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图 3-50 早期 Pentium 系统 的 体系 结构 。 厚 总 线 的 带宽 比 薄 的 要 高 ， 但 并 不 成 比例 
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这 个 体系 结构 的 两 个 关键 部 件 是 两 片 搭桥 芯片 (由 Intel 制造 一 一 这 也 是 它 的 全 部 利 
益 )。 PCI 桥 连接 了 CPU、 内 存 和 PCI 总 线 ; ISA 桥 则 将 PCI MAA ISA 总 线 连接 在 一 起 ， 
而 且 还 能 支持 一 到 两 个 IDE $o JLF A K Pentium 4 系统 出 厂 时 都 有 一 个 或 多 个 空闲 
的 PCI 扩 展 槽 ， 供 用 户 增加 新 的 高 速 外 部 设备 ， 还 有 一 个 或 多 个 ISA THA, AT DAS IG 
速 外 设 。 

3-50 所 示 体 系 结构 的 最 大 的 优点 是 ， 由 于 采用 了 专用 的 内 存 总 线 ，CPU 和 内 存 之 间 的 
带宽 特别 高 ; 而 PCL 总 线 就 可 以 为 快速 的 外 部 设备 ， 如 SCSI 盘 、 图 形 适 配器 等 提供 较 高 的 带 
宽 ; 同时 ， 老 的 ISA 卡 也 可 以 照常 使 用 。 图 中 的 USB 方 框 表示 通用 串 行 总 线 ， 我 们 在 本 章 的 
后 面部 分 讨论 。 

如 果 只 有 一 种 PCI 卡 的 话 ， 那 这 个 世界 简直 是 太美 好 了 ,但 不 幸 的 是 ， 实 际 情况 不 是 这 
样 。 不 同 的 PCI 卡 可 以 选择 不 同 的 工作 电压 、 数 据 宽 度 和 时 钟 频率 。 旧 型 号 的 计算 机 通常 使 
用 5 伏 电 压 ， 而 新 的 则 趋向 于 使 用 3.3V， 所 以 PCI 总 线 两 个 都 要 支持 。 在 接头 上 ， 除 了 有 两 
个 塑料 插销 来 防止 人 们 将 SV 的 卡 插 到 3.3V 的 PCI 总 线 或 反 向 操作 ， 其 他 都 是 一 样 的 。 值 得 
高 兴 的 是 ， 现 在 有 了 支持 两 种 电压 并 能 插 接 任何 一 种 插 权 的 通用 卡 。 除 了 电压 的 选择 之 外 ， 
PCI 总 线 卡 也 有 32 位 和 64 位 两 个 版 本 。32 位 的 卡 有 120 根 连 线 ; 而 64 位 卡 除了 这 120 根 连 
线 之 外 ， 还 另外 有 64 根 连 线 。 支 持 64 位 卡 的 PCI 总线 系统 上 可 以 插 32 位 的 卡 ， 但 反 过 来 不 
行 。 最 后 ，PCI 总 线 和 卡 都 可 以 工作 在 33MHz 或 66MHz 的 频率 上 ， 这 由 将 某 个 管 脚 连接 到 
电源 或 地 来 决定 ， 两 种 速度 下 的 接头 是 相同 的 。 

到 20 世纪 90 年代 后 期 几乎 所 有 的 人 都 认为 ，ISA 总 线 时 代 已 经 过 去 ， 因 此 ， 新 的 
设计 中 把 它 排 除 在 外 。 然 而 ， 也 就 是 在 那个 时 候 ， 显 示 器 的 分 辩 率 提高 到 了 1600 x 1200 A 
右 ， 对 全 屏幕 显示 全 动感 视频 的 要 求 也 就 更 高 ， 尤 其 是 在 一 些 高 度 交 互 的 游戏 中 。 因 此 ， 
Intel 又 设计 了 另外 一 条 总 线 ， 专 门 用 来 驱动 图 形 卡 。 这 就 是 AGP 总 线 ( 加 速 图 形 端 口 总 线 ， 
Accelerated Graphics Port bus )。 第 一 个 版 本 的 AGP 总 线 ， 也 就 是 AGP1.0， 带 宽 为 264MB/ 
s， 被 定义 为 1x。 RIRE PCI 总线 速度 要 慢 一 些 ， 但 它 是 供 图 形 卡 专用 的 。 经 过 这 些 年 的 发 
展 ， 新 的 版 本 不 断 出 现 ， 现 在 的 AGP3.0 的 速度 已 达到 2.1GB/s ( 8x )。 但 就 是 这 个 高 性 能 的 
AGP3.0 总 线 也 没有 摆脱 被 更 快 总 线 取 代 的 命运 ， 新 出 现 的 这 个 “骄子 ”就 是 PCI Express 总 
线 ， 它 通过 高 速 的 单行 链 路 提供 令 人 惊讶 的 16GB/s 的 带宽 。 图 3-51 给 出 了 目前 的 Core i7 系 
统 的 总 线 结构 示意 图 。 

现在 的 基于 Core i7 的 系统 中 ， 许 多 接口 已 经 直接 集成 在 CPU 芯片 中 。 两 个 每 秒 可 运行 
1333 个 事务 的 DDR3 存储 器 通道 ， 连 接 主 存储 器 ， 每 个 通道 可 提供 10GBAs 的 总 带宽 。CPU 
中 还 集成 了 一 个 16 信道 的 PCI Express 通道 ， 可 配置 成 单个 16 位 的 PCI Express 总 线 或 者 两 
个 相互 独立 的 8 位 PCI Express 总 线 。16 个 信道 一 起 可 为 IO 设备 提供 16GB/s 的 带宽 。 

CPU 通过 20Gbps (2.5GB/s ) 的 串 行 直接 媒体 访问 接口 (Direct Media Interface, DMI ) 
连接 主要 的 桥接 芯片 P67。P67 可 提供 多 个 现代 高 性 能 VO 接口 ， 包 括 另外 8 个 PCI Express 
信道 ， 以 及 SATA 盘 接口 。P67 还 提供 了 14 个 USB2.0 接口 .10G 的 以 太 网 口 和 一 个 音频 接口 。 

ICH10 芯片 为 老 设 备 提供 传统 的 接口 支持 ， 它 通过 一 个 慢 一 些 的 DMI 接口 和 P67 连接 。 
ICH10 上 实现 了 PCI 总 线 、1G 以 太 口 、USB 端口 、 老式 PCI Express 以 及 SATA 接口 。 新 一 
些 的 系统 也 可 能 不 含 ICH10， 它 只 在 系统 需要 支持 遗留 接口 时 才 配 置 。 


RFEBA 155 


PCI Express 2.0 16 信 道 
1333MHz 
Intel 
PCI Express 2.0 8 信道 Core i7 
图 形 卡 〈 选 配 ) DDR3 
1333MHz 


8GB/s 
PCI Express 2.0 8 信道 
BJEFF G) 8GB/s 
Intel 高 清音 频 接 口 
14 个 高 速 USB 2.0 端 口 ; 8 个 PCI Express 2.0 
双 EHCI 接 口 ; USB 端 品 = Intel P67 








个 Express 芯 片 组 
RADE 674 ATF ATA Sin ; 
PClex1 | |SM 总 线 Intel 快速 存储 访问 技术 
Intel 千 兆 局 域 网 口 om) B 
2GB/s | DMI 


12 个 高 速 USB 2.0 端 口 ; ‘anes 

双 EHCI 接 口 ; USB 端 口 s Intel 高 清音 频 接 口 
每 个 

关闭 功能 ICH10 


500Mb/s 3Gb/s | ， 6 个 串 行 AIA 端 口 
ICH10R ; 
6 个 PCI Express x 1.0 eri 每 不 ica, ae eee 
集成 的 Intel 100/1G/10G MAC 
LPC 或 SPI 


GLCI LCI 


图 3-51 现代 Core i7 系统 的 总 线 结构 


PCI 


1. PC] 总 线 操作 

从 最 早 的 IBM PC 开始 ， 所 有 PC 的 总 线 都 是 同步 总 线 ，PCI 总 线 也 不 例外 。PCI ARE 
所 有 的 事务 都 发 生 在 主 设备 ( 正式 名 称 为 发 起 者 ) 和 从 设备 ( 正式 名 称 为 接受 者 ) 之 间 。 为 
减少 PCL 总 线 的 管 脚 数 ， 它 的 数据 线 和 地 址 线 是 复 用 的 。 这 样 ，PCI 卡 上 只 需要 为 地 址 和 数 
据 信和 号 一 共 设 置 64 个 管 脚 ， 尽 管 它 能 支持 64 位 的 地 址 和 64 位 的 数据 。 

复 用 数据 和 地 址 管 脚 的 工作 流程 如 下 。 读 操作 时 ， 在 第 1 个 周期 ， 主 设备 将 地 址 发 送 到 
ARE; 第 2 个 周期 ， 主 设备 从 总 线 上 撤销 地 址 ， 并 释放 总 线 让 从 设备 使 用 。 第 3 个 周期 ， 
从 设备 向 总 线 上 输出 所 请 求 的 数据 。 写 操作 时 ， 总 线 不 需要 被 释放 ， 因 为 是 主 设备 向 总 线 上 
发 地 址 和 数据 。 虽 然 如 此 ， 最 小 的 一 个 事务 也 需要 3 个 周期 。 如 果 从 设备 无 法 在 3 个 周期 的 
时 间 内 相应 ， 还 可 以 插入 等 待 周 期 。 不 限制 传输 总 量 的 块 传输 也 是 可 以 的 ，PCI 还 支持 几 种 
其 他 的 总 线 周期 。 

2. PCI BAAPR 

设备 要 使 用 PCI 总 线 时 ， 必 须 首先 得 到 它 的 使 用 权 。PCI 总 线 仲裁 采用 的 是 集中 式 的 总 
线 仲 裁 器 ， 如 图 3-52 所 示 。 仲 裁 器 在 多 数 设计 中 都 设置 在 某 个 桥接 芯片 上 。 每 个 PCI 设备 都 
有 两 根 专用 线 连 接 到 仲裁 器 。 其 中 ，REQ# 用 于 发 出 总 线 请 求 ， 而 GNT# 用 来 接受 总 线 授权 。 
注意 ，REQ# 在 PCI 总 线 中 指 REQ. 
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图 3-52 ”使 用 集中 式 总 线 仲裁 器 的 PCI 总 线 


为 申请 总 线 ， 先 由 PC 设备 (包括 CPU) 发 出 REQ# 信号 ， 并 等 待 总 线 仲裁 器 对 它 发 出 
GNT# 信号 。 只 有 得 到 授权 后 ， 设 备 才能 在 下 一 个 周期 内 使 用 总 线 。PCI 总 线 的 标准 没有 规定 
仲裁 器 使 用 的 算法 。 轮 询 仲裁 、 优 先 级 仲裁 ， 还 有 其 他 的 算法 都 可 以 使 用 。 显 然 ， 好 的 仲裁 
器 应 该 是 公平 的 ， 即 不 能 让 一 些 设 备 永 远 处 于 等 待 状 态 。 

总 线 授权 只 是 针对 一 个 事务 的 ， 尽 管理 论 上 讲 这 个 事务 的 长 度 可 以 是 无 限 的 。 如 果 一 个 
设备 需要 运行 第 二 个 事务 ,而 且 此 时 没有 其 他 设备 发 出 总 线 请 求 ， 那 么 它 可 以 继续 使 用 总 线 ， 
但 即使 这 样 ， 一 般 来 说 ， 在 事务 之 间 也 必须 插入 一 个 空闲 周期 。 然 而 ， 在 某 些 特殊 情况 下 ， 
缺少 总 线 竞争 时 ， 设 备 可 以 不 插 和 人 空闲 周期 而 连续 进行 两 个 事务 。 如 果 总 线 主 设备 正在 进行 
一 个 很 长 的 数据 传输 ， 而 此 时 其 他 的 设备 申请 使 用 总 线 ， 总 线 仲裁 器 就 可 以 把 GNT# 信 号 置 
反 。 当 前 使 用 总 线 的 主 设备 应 该 监控 GNT# 信 号， 这 样 ， 它 看 到 GNT# 被 置 反 后 ， 就 必须 在 
下 个 周期 交 出 总 线 的 使 用 权 。 这 种 仲裁 模式 使 得 在 没有 其 他 总 线 主 设备 申请 总 线 时 可 以 进行 
长 时 间 的 数据 传输 (效率 比较 高 )， 同时， 也 可 以 对 竞争 的 设备 有 较 快 的 响应 速度 。 

3. PC] 总 线 信号 

PCI 总 线 具 有 图 3-53a 所 列 出 的 一 组 必 备 信号 ， 还 可 以 有 图 3-53b 所 列 出 的 一 些 可 选 信 
号 。120 根 或 184 根 信号 线 的 其 他 部 分 用 于 电源 、 地 ， 还 有 一 些 其 他 的 功能 ， 就 不 在 此 一 一 
列 出 了 。 主 设备 (发 出 者 ) 和 从 设备 ( 接受 者 ) 两 列 指出 在 一 般 的 事务 中 是 哪个 设备 发 出 和 
接收 这 些 信号 。 若 该 信号 由 其 他 的 设备 发 出 ( 如 时 钟 (CLK) 信号 )， 则 两 列 都 为 空 。 

下 面 我 们 简单 地 分 析 一 下 PCI 总 线 的 每 个 信号 。 首 先是 必 备 信号 ( 32 位 总 线 )， 然 后 再 
分 析 可 选 信号 (对 64 位 总 线 )。CLK 信号 是 驱动 总 线 工 作 的 时 钟 信 号 ， 大 多 数 其 他 信号 与 它 
同步 。PCI 总 线 的 事务 从 CLK 信号 的 下 降 沿 ， 即 总 线 周 期 的 中 间 开 始 。 

32 个 AD 信和 号 用 来 传输 地 址 和 数据 (对 32 位 的 事务 )。 一般 来 说 ， 在 周期 1 发 出 地 址 ， 
周期 3 发 出 数据 。PAR 信号 是 对 AD 信和 号 的 校 验 信号 。C/BE# 信号 用 作 两 个 不 同 的 用 途 。 在 
周期 1， 它 用 来 传送 总 线 命令 ( 读 1 个 字 、 块 读 等 ) 在 周期 2 时 ， 它 将 包含 一 个 4 位 的 位 
图 ， 指 出 读 出 的 32 位 字 的 哪些 字 节 有 效 。 使 用 C/BE# 信号 后 ， 就 可 能 读 写 一 个 整 字 ， 或 其 
中 的 任意 1 个 、 2 个 或 3 个 字 节 。 

FRAME# 信号 由 总 线 主 设备 发 出 ， 用 来 启动 一 个 总 线 事务 。 它 告诉 从 设备 地 址 信号 和 总 
线 命令 已 经 有 效 。 对 于 读 操作 ， 通 常 IRDY# 信号 将 和 FRAME# 信号 同时 发 出 ,说 明 总 线 主 设 
备 已 经 准备 好 ， 可 以 接收 输入 的 数据 。 对 于 写 操作 , IRDY# 信号 将 稍 后 在 数据 到 达 总 线 后 发 出 。 

每 个 PCI 设备 都 必须 有 一 个 256 字 节 的 配置 区 ， 配 置 区 内 存放 设备 的 优先 级 ， 可 以 供 其 
他 设备 读 。IDSEL 信和 号 就 是 用 来 读 这 个 配置 区 的 。 一 些 操 作 系 统 的 即 插 即 用 功能 就 是 通过 读 
取 配 置 区 来 发 现 哪 些 设备 连接 在 总 线 上 。 
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下 面 我 们 讨论 由 从 设备 发 出 的 信号 。 第 一 个 信号 DEVSEL# 表示 从 设备 已 经 检测 到 AD 
信号 上 的 地 址 ， 并 准备 好 在 事务 中 应 答 。 若 DEVSEL# 信号 没有 在 规定 的 时 间 内 发 出 ， 主 设 
备 超时 ， 并 假定 它 寻 址 的 从 设备 不 在 总 线 上 或 已 经 无 法 使 用 。 

第 二 个 从 设备 信号 是 TRDY#， 对 于 读 操 作 ， 发 出 该 信号 表示 读 出 的 数据 已 经 在 AD 信号 
上 ; 对 于 写 操作 ， 发 出 该 信号 意味 着 从 设备 已 经 做 好 接收 数据 的 准备 。 

后 面 的 三 个 信号 用 于 出 错 报告 。 这 三 个 信号 中 第 一 个 是 STOP#， 由 从 设备 在 发 生 一 些 
灾难 性 事件 时 中 止 当 前 事务 而 发 出 。 第 二 个 为 PERR#， 用 来 报告 前 一 个 周期 的 数据 发 生 校 验 
错 。 对 于 读 操作 ， 它 由 主 设备 发 出 ; 对 于 写 操作 ， 则 由 从 设备 发 出 。 最 后 由 信和 号 的 接收 者 来 
做 出 适当 的 反应 。 另 外 ， 第 三 个 信号 SERR# 用 来 报告 地 址 出 错 或 者 系统 错误 。 
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b) 可 选 PCI 总 线 信号 
图 3-53 


REQ# 信号 和 GND# 信和 号 是 用 于 总 线 仲裁 的 ， 它 们 不 是 由 当前 的 总 线 主 设备 发 出 的 ， 而 


为 实现 多 个 事务 锁定 总 线 
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是 由 希望 成 为 主 设备 的 设备 发 出 。 最 后 一 个 必 备 信号 是 RST#， 用 来 重新 启动 系统 ， 不 管 是 因 
为 用 户 按 下 了 RESET 按钮 ， 或 者 是 系统 的 某 个 设备 发 现 了 致命 错误 ， 都 将 发 出 这 个 信号 ， 重 
置 所 有 的 设备 并 重新 启动 计算 机 。 

现在 我 们 来 看 看 可 选 信号 ， 大 部 分 可 选 信号 和 从 32 位 总 线 扩充 到 64 位 总 线 有 关 。 
REQ64# 和 ACK64# 信号 可 以 为 主 设备 请 求 一 个 64 位 的 事务 ， 也 使 得 从 设备 可 以 接收 这 个 事 
务 。AD、PAR64 和 C/BE# 信号 是 对 32 位 总 线 的 对 应 信和 号 的 扩充 。 

后 面 紧 跟 着 的 三 个 信号 和 32 位 总 线 及 64 位 总 线 都 没有 关系 ， 而 是 和 多 处 理 器 系统 有 关 ， 
而 且 并 不 是 一 定 要 求 PCI 卡 支持 这 些 信 号 。LOCK 信号 可 以 为 实现 多 个 事务 而 锁 住 总 线 ， 另 
外 的 两 个 信号 用 来 监听 总 线 ， 以 保持 高 速 缓 存 的 一 致 性 。 

INTX 信和 号 用 来 请 求 中 断 。PCI 卡 可 以 连接 不 超过 4 个 的 单独 的 逻辑 设备 ， 每 个 都 有 自己 
的 中 断 请 求 信号 。JTAG 信号 供 IEEE 1149.1 JTAG 的 测试 程序 使 用 。 最 后 ， 可 以 通过 M66EN 
信号 分 别 连接 电源 和 地 来 设置 时 钟 速度 。 但 在 系统 工作 期 间 不 允许 改变 设置 。 

4. PCI 总 线 事 务 

PCI 总 线 实际 上 十 分 简单 ( 就 像 公共 汽车 运行 )。 为 更 好 地 理解 它 的 工作 过 程 ， 我 们 给 出 
图 3-54 所 示 的 时 序 图 。 图 中 我 们 给 出 了 一 个 读 事务 ， 其 后 是 一 个 空闲 周期 ， 后 面 紧 跟 由 同一 
个 总 线 主 设备 发 出 的 写 事务 。 








FRAME# 










IRDY# 





DEVSEL# 


TRDY# 





3-54 32 位 PCI 总 线 事务 举例 头 。 前 三 个 周期 是 一 个 读 操作 ， 然 后 是 一 个 空闲 周期 ， 
后 面 的 三 个 周期 是 写 操作 


在 时 钟 周期 T 的 下 降 沿 ， 主 设备 将 内 存 地 址 送 上 AD， 同 时 把 总 线 命令 送 上 CVBE# 后 ， 
发 出 FRAME# 来 启动 总 线 事务 。 

到 时 钟 周 期 7>， 主 设备 交 出 地 址 总 线 的 控制 ， 准 备 让 从 设备 在 时 钟 周 期 二 使 用 。 同 时， 
主 设备 还 修改 C/BE# 信号 ， 指 出 它 需 要 的 ( 即 读 入 ) 是 哪些 字 节 。 

在 时 钟 周期 T3， 从 设备 发 出 DEVSEL# 信 和 号， 使 主 设备 知道 它 已 经 得 到 了 地 址 ， 并 准 
备 响 应 主 设备 的 请 求 。 它 还 要 在 这 个 周期 将 数据 放 到 AD 上 ， 并 发 出 TRDY# 信 号 来 通知 主 
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设备 它 已 经 完成 操作 。 若 从 设备 无 法 这 么 快 地 响应 ， 它 则 需要 持续 保持 DEVSEL# 信号 但 将 
TRDY# 信号 置 反 来 表明 它 一 直 占 着 总 线 ， 直 到 它 输出 数据 到 总 线 上 。 这 个 过 程 可 能 引入 一 个 
或 多 个 等 待 状态 。 

本 例 中 (实际 上 也 经 常 是 )， 下 一 个 总 线 周期 是 空闲 的 。 从 五 开 始 ， 我 们 看 到 同一 个 主 
设备 初始 化 了 一 个 写 事务 。 和 通常 一 样 ， 它 从 将 地 址 和 命令 送 上 总 线 开 始 ， 只 有 到 了 第 二 个 
周期 ， 它 才 将 要 写 的 数据 发 出 到 总 线 上 。 由 于 是 同一 个 设备 驱动 AD 信号 ， 所 以 就 不 再 需要 
一 个 周期 来 撤消 信号 。 到 7;， 内 存 接收 数据 。 


3.6.2 PCI Express 


对 当前 的 大 多 数 应 用 来 说 ，PCI 总 线 的 带宽 已 经 足够 了 ， 但 是 ， 对 输入 /输出 的 带宽 的 更 
高 的 要 求 又 使 刚刚 就 位 的 PC 机 的 内 部 体系 结构 重新 陷 人 到 混乱 中 。 图 3-52 中 ，PCI 总 线 显 
然 已 经 不 再 是 将 PC 的 各 部 件 连 接 起 来 的 中 心 元 素 ， 桥 接 芯片 已 经 部 分 接替 了 这 项 工作 。 

问题 的 本 质 在 于 已 经 有 许多 的 输入 /输出 设备 的 速度 超过 了 PCI 总 线 的 传输 能 力 ， 而 且 
这 些 设备 数目 还 在 增加 。 单 纯 提 高 总 线 的 时 钟 频率 也 不 是 一 个 好 的 解决 办 法 ， 因 为 这 会 造成 
总 线 信 号 扭曲 ， 即 总 线 的 各 导线 之 间 信 号 发 生 干 扰 ， 同 时 ， 电 容 效 应 也 更 为 严重 。 每 磁 到 一 
个 比 PCI 总 线 更 快 的 输入 /输出 设备 (如 图 形 适配器 、 硬 盘 、 网 卡 等 )，Intel 就 在 桥接 芯片 
上 增加 一 个 新 的 特殊 接口 ， 使 设备 能 从 PCI 总 线 旁 路 通过 。 显 然 ， 这 也 不 是 一 个 长 久 的 解决 
办 法 。 

PCI 总 线 遇 到 的 另 一 个 问题 是 它 的 接口 卡 太 大 了 。 标 准 的 PCI 卡 大 小 一 般 为 
17.5cm x 10.7cm， 小 型 卡 为 12.0cm x 3.6cm。 它 们 都 无 法 应 用 到 笔记 本 型 计算 机 ， 更 不 用 说 
移动 设备 了 ， 可 制造 商 还 希望 推出 更 小 的 设备 。 而 且 ， 有 些 公司 还 想 重 新 组 装 PC， 将 CPU 
和 内 存 封 闭 到 一 个 微型 的 盒子 中 ， 而 将 硬盘 放置 到 显示 器 中 。 如 果 还 采用 PCI 总 线 ， 这 也 是 
不 可 能 实现 的 。 

解决 上 述 问 题 的 方案 已 经 提出 了 好 几 个 ,但 目前 已 在 大 多 数 PC 中 占有 一 席 之 地 的 ( Intel 
的 支持 绝对 是 重要 的 原因 ) 就 是 PCI Express。 它 和 PCI 总 线 几 乎 没有 关系 ， 事 实 上 ， 它 也 
不 应 该 算是 传统 意义 上 的 总 线 ， 但 市 场 营 销 人 员 不 愿意 轻易 放弃 已 经 很 知名 的 PCI 这 个 名 称 。 
PCI Express 已 经 成 为 PC 的 标准 配置 ， 下 面 ， 我 们 来 讨论 它 的 运行 原理 。 

1. PCI Express 的 体系 结构 

PCI Express (通常 缩写 为 PCIe ) 方案 的 核心 是 彻底 按 弃 了 在 并 行 导 线 上 连接 众多 主 设备 
和 从 设备 的 传统 的 总 线 模式 ， 代 之 以 基于 高 速 点 到 点 串 行 连接 设备 的 方式 。 它 对 传统 的 ISA/ 
EISA/PCI 总 线 进行 了 根本 性 改变 ， 而 从 局 域 网 ， 尤 其 是 交换 以 太 网 借鉴 了 许多 重要 的 思想 。 
其 最 基本 的 出 发 点 是 : 从 根本 上 看 ，PC 是 CPU、 主 存储 器 及 输入 /输出 接口 芯片 互相 连接 而 
构成 的 ，PCI Express 要 做 的 仅仅 是 为 这 些 芯 片 的 串联 提供 一 种 通用 的 交换 机 制 。 图 3-55 给 出 
了 一 个 典型 的 PCI Express 的 结构 。 

正如 图 3-55 所 示 ，CPU、 内 存 和 高 速 缓存 依然 通过 传统 的 方式 连接 ， 不 同 的 是 用 交换 网 
络 和 桥接 芯片 (也 可 能 交换 网 络 就 是 桥接 芯片 的 一 部 分 ， 也 可 能 是 直接 集成 到 了 处 理 器 芯片 
上 ) 连接 在 一 起 ， 而 每 个 输入 /输出 接口 芯片 有 专门 的 点 到 点 连 线 连接 到 交换 网 络 。 每 个 这 
种 连接 由 一 对 单 向 的 通道 组 成 ， 一 根 通 道 从 交换 网 络 到 设备 ， 另 一 个 从 设备 到 交换 网 络 。 每 
个 通道 由 两 根 导线 组 成 ， 一 根 传送 信号 ， 另 外 一 根 是 地 ， 以 在 高 速 传输 中 抵抗 干扰 。 这 种 体 
系 结构 下 ， 所 有 设备 被 同等 对 待 ， 形 成 了 一 个 更 为 统一 的 模式 ,替代 了 旧 的 总 线 模式 。 
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一 对 串 行 通道 


图 3-55 典型 的 PCI Express 系统 


PCI Express 体系 结构 和 原 有 的 PCI 总 线 体系 结构 有 三 点 关键 的 区 别 。 我 们 已 经 指出 了 其 
中 的 两 点 : 集中 的 交换 网 络 取代 了 “多 站 ”的 总 线 ， 串 行 的 点 到 点 连接 取代 了 并 行 的 总 线 。 
第 三 点 关键 区 别 比 较 隐藏 。PCI 总 线 传 输 从 概念 上 讲 ， 是 由 主 设备 发 出 一 个 命令 给 从 设备 ， 
读 一 个 字 或 多 个 字 。 而 PCI Express 的 模型 是 一 个 设备 发 送 一 个 数据 包 到 另 一 个 设备 。 包 由 包 
头 和 有 效 载荷 组 成 ， 是 网 络 中 常用 的 概念 。 包 头 包含 一 些 控 制 信息 ， 这 样 ，PCI 总 线 上 的 许 
多 控制 信号 就 可 以 省 略 了 。 有 效 载荷 由 被 传送 的 数据 组 成 。 从 本 质 上 看 ，PCI Express 结构 的 
PC 机 就 是 一 个 微型 的 包 交 换 网 络 。 

除 这 三 点 主要 区 别 外 ， 它 们 之 间 还 有 一 些 不 同 之 处 。 第 四 ， 包 中 还 有 一 些 检 错 纠 错 码 ， 
可 使 PCI Express 的 可 靠 性 比 PCI 总线 要 好 。 第 五 ， 接 口 卡 和 交换 网 络 的 连 线 距 离 比较 长 ， 最 
长 可 达到 50cm， 这 就 允许 系统 分 离 。 第 六 ， 由 于 设备 本 身 可 以 是 一 个 新 的 交换 网 络 ， 系 统 的 
可 扩展 性 比较 强 。 第 七 ， 设 备 可 热 插 拔 ， 意 味 着 它们 可 在 系统 运行 时 接 人 或 断 开 。 最 后 ， 串 
行 的 接头 比 原来 的 PCI 接头 小 得 多 ， 设 备 和 计算 机 都 可 以 做 得 小 一 些 。 总 之 ， 和 了 PCI 总 线 大 
不 相同 。 

2. PCI Express 的 协议 栈 

由 于 采用 了 包 交 换 网 络 的 模型 ，PCI Express 系统 也 有 一 个 分 层 的 协议 栈 。 协 议 是 一 组 对 
通信 双方 会 话 进行 管理 的 规则 。 协 议 栈 是 协议 的 层次 关系 ,不 同 层 的 协议 处 理 不 同 的 问题 。 
我 们 以 商务 信函 作为 例子 来 说 明 。 对 于 这 些 信 函 的 写法 ， 比 如 信 的 抬头 、 收 信人 的 地 址 、 写 
信 的 日 期 、 称 呼 语 、 信 的 主体 、 签 名 等 ， 都 存在 一 些 约定 俗 成 的 惯例 。 这 些 就 可 以 被 理解 成 
信件 的 协议 。 除 此 之 外 ， 对 于 信封 ， 又 有 另 一 套 惯 例 ， 包 括 信封 的 大 小 、 发 信人 地 址 写 在 何 
处 及 格式 、 收 信人 地 址 的 位 置 和 格式 、 邮 戳 的 位 置 等 。 这 两 个 层次 和 它们 的 协议 是 完全 独立 
的 。 例 如 ， 完 全 可 以 采用 一 套 新 的 信函 的 写法 但 保留 信封 的 写法 ,或 者 反 过 来 ,保留 信函 的 
写法 但 改变 信封 的 写法 。 层 次 化 的 协议 可 使 模块 设计 更 灵活 ， 在 网 络 软 件 中 已 经 广泛 应 用 了 
数 十 年 的 时 间 。 但 把 这 个 概念 用 到 “总 线 ” 的 硬件 上 是 一 个 创新 。 
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PCI Express 协议 栈 如 图 3-56a 所 示 ， 我 们 逐 层 进行 讨论 。 














包头 有 效 载荷 
包头 有 效 载荷 CRC 
Seq # 包头 有 效 载荷 CRC 
a) PCI Express HiX +R b) 包 的 格式 


图 3-56 


我 们 自 底 向 上 逐 层 进行 说 明 。 最 底层 是 物理 层 。 它 解决 的 是 点 到 点 连接 上 从 发 送 方 到 接 
收 方 的 数据 位 的 传送 。 每 个 点 到 点 的 连接 由 一 对 或 多 对 单 工 (也 就 是 单 向 传输 ) 的 连接 线 组 
成 。 最 简单 情况 下 ， 每 个 方向 有 一 对 连接 线 ， 但 也 允许 有 2、4、8、16 或 32 对 。 每 对 这 样 的 
连接 线 叫做 一 个 信道 。 每 个 方向 上 的 信道 数 必 须 相 同 。 第 一 代 产 品 的 单 向 传输 速率 至 少 要 达 
到 2.5Gbps, 而且 ， 预 计 很 快 会 达到 10Gbps。 

与 ISA/EISA/PCI 总 线 不 同 ，PCI Express 中 没有 主 时 钟 。 设 备 一 旦 有 数据 需要 传送 ,就 
可 以 随时 启动 传送 的 过 程 。 这 种 自由 使 系统 运行 得 更 快 一 些 , 但 也 带 来 了 问题 。 假 设 1 位 二 
进 制 位 ，+3V 代表 1，0V 代表 0。 如 果 前 几 个 字 节 的 数据 都 为 0， 如 何 才能 让 接收 方 知道 有 
多 少数 据 位 传送 到 了 呢 ? 毕 竟 传 输 一 连 串 的 二 进 制 0 和 不 传 任何 数据 表面 看 起 来 是 一 样 的 。 
这 个 问题 是 通过 8b/10b 编码 来 解决 的 。 这 种 编码 方式 将 1 个 字 节 的 数据 编码 为 一 个 10 位 二 
进 制 的 符号 ， 由 于 10 位 的 符号 总 共 可 以 有 1024 种 可 能 的 组 合 ， 所 以 我 们 可 以 256 种 作为 合 
法 符号 进行 传输 。 选 择 的 标准 是 有 足够 多 的 电压 变迁 ， 以 使 发 送 方 和 接收 方 在 没有 主 时 钟 的 
情况 下 ， 也 可 以 按 位 进行 同步 。 当 然 ， 采 用 8b/10b 编码 的 后 果 之 一 ， 就 是 2.5Gbps 的 总 传输 
率 下 ， 对 有 效 数据 的 传输 速率 只 能 达到 2Gbps。 

物理 层 处 理 的 是 数据 位 传输 的 有 关 问 题 ， 而 链 路 层 要 解决 的 是 数据 包 的 传输 问题 。 链 路 
层 从 事务 层 得 到 包头 和 有 效 载荷 ， 并 为 之 增加 顺序 号 和 CRC (Cyclic Redundancy Check， 循 
环 宛 余 校 验 ) 检 错 纠 错 码 。CRC 码 可 以 通过 确定 的 算法 对 包头 和 有 效 载荷 进行 运算 得 到 。 收 
到 包 后 ， 接 收 方 将 对 包头 和 有 效 载荷 进行 同样 的 运算 ， 并 将 得 到 的 CRC 码 与 原 CRC 码 进 行 
比较 ， 如 果 相 同 ， 它 将 发 送 一 个 简短 的 确认 包 给 发 送 方 ， 表 示 包 已 经 正确 到 达 。 如 果 不 同 ， 
接收 方 将 要 求 重新 传送 。 采 用 这 种 方式 ，PCI Express 的 数据 完整 性 比 PCI 总 线 有 了 较 大 的 提 
高 ， 实 际 上 ，PCI 总 线 没 有 对 总 线 上 传输 的 数据 提供 任何 的 验证 和 重新 传输 的 机 制 。 

为 防止 由 于 发 送 方 发 包 的 速度 过 快 ， 超 出 了 接收 方 的 处 理 速度 ， 而 导致 接收 方 无 法 正确 
接收 的 情况 发 生 ， 必 须 采 取 流 量 控制 机 制 。 首 先 ， 由 接收 方 给 发 送 方 一 个 缓冲 数值 ， 对 应 于 
接收 方 用 于 存放 到 达 包 的 缓冲 区 的 空闲 空间 数 。 当 缓冲 数值 用 完 时 ， 发 送 方 应 停止 发 送 数据 
包 ， 直 到 它 被 告 之 接收 方 有 新 的 空闲 空间 可 用 。 这 种 机 制 已 经 在 所 有 的 网 络 中 得 到 了 广泛 的 
应 用 ， 能 防止 由 于 发 送 方 和 接收 方 速度 不 匹配 造成 的 数据 丢失 。 

事务 层 处 理 总 线 的 事务 。 从 内 存 中 读 一 个 字 需 要 有 两 个 事务 : 一 个 由 CPU 或 DMA 通道 
发 起 ， 提 出 数据 访问 的 请 求 ; 另 一 个 由 提供 数据 的 从 设备 发 起 。 但 事务 层 所 解决 的 还 不 仅仅 
是 单纯 的 数据 读 写 。 它 对 由 链 路 层 提 供 的 原始 数据 包 传输 服务 进行 了 加 强 。 首 先 ， 它 可 将 每 
个 传输 信道 分 解 成 最 多 8 个 虚 电路 ， 每 个 虚 电 路 处 理 一 种 不 同类 型 的 流量 。 事 务 层 还 可 以 根 
据 数据 包 的 类 型 的 不 同 ， 对 其 加 上 不 同 的 标签 ,标签 的 属性 包括 高 优先 级 、 低 优先 级 、 不 需 
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要 监听 、 可 乱 序 发 送 等 。 交 换 网 络 可 以 根据 这 些 标签 来 决定 下 一 个 将 要 处 理 的 数据 包 。 

每 个 事务 使 用 下 面 4 种 地 址 空间 之 一 : 

1) 内 存 空 间 (用 于 普通 的 读 和 写 操作 )。 

2) VO 空间 (用 于 设备 寄存 器 寻 址 操作 )。 

3 ) 配置 空间 ( 用 于 系统 初始 化 等 操作 )。 

4) 消息 空间 (用 于 信号 、 中 断 等 操作 )。 

HER, KFA Vo 空间 与 现 有 系统 的 内 存 和 JIO 空间 类 似 。 配 置 空间 可 用 来 实现 即 插 
即 用 等 特性 。 消 息 空间 取代 了 现 有 系统 中 的 控制 信号 的 作用 。 需 要 这 种 空间 的 原因 是 PCI 
Express 中 取消 了 PCI 总 线 所 用 的 全 部 控制 信和 号。 

软件 层 是 操作 系统 与 PCI Express 系统 的 接口 。 它 可 以 仿效 PCI 总 线 ， 使 已 有 的 操作 系统 
可 不 加 修改 地 运行 在 PCI Express 系统 上 。 当 然 ， 这 样 运行 将 无 法 发 挥 PCI Express 的 全 部 能 
力 ， 但 向 后 兼容 是 无 法 回避 的 要 求 ， 除 非 修改 操作 系统 ， 使 它 可 以 全 面 利用 PCI Express。 实 
际 工 作 表 明 ， 这 还 需要 一 段 时 间 。 

图 3-56b 给 出 了 PCI Express 的 信息 流 。 当 软件 层 接 收 到 命令 ， 它 将 把 命令 传递 给 事务 
展 ， 由 事务 层 将 其 封装 为 包头 和 有 效 载 荷 。 然 后 ， 这 两 部 分 都 被 提交 给 链 路 层 ， 在 其 前 面 加 
上 顺序 号 ， 在 其 后 面 加 上 CRC 码 。 这 个 被 扩大 的 包 被 交 给 物理 层 ， 每 端 还 会 添加 上 帧 信息 ， 
以 形成 真正 用 于 传输 的 物理 层 的 包 。 在 接收 方 ， 发 生 相 反 的 过 程 ， 链 路 层 的 包头 和 包 尾 被 去 
除 ， 结 果 被 提交 给 事务 层 。 

在 网 络 界 ， 随 着 协议 层次 的 下 降 ， 每 层 增 加 附加 的 信息 到 数据 上 的 概念 使 用 了 数 十 年 ， 
并 取得 了 很 大 的 成 功 。PCI Express 和 网 络 的 最 大 区 别 在 于 ， 在 网 络 界 ， 不 同 层次 的 代码 几乎 
都 是 操作 系统 中 的 软件 模块 ， 而 在 PCI Express 中 ， 却 都 是 设备 的 硬件 的 组 成 部 分 。 

PCI Express 本 身 是 复杂 的 。 如 想得到 更 多 的 信息 ， 可 参考 Mayhew Al Krishnan ( 2003 )、 
Solari 和 Congdon ( 2005 )。 而 且 ， 它 依然 在 不 断 进化 。2007 年 ，PCIe 2.0 问世 ， 它 可 支持 每 
个 信道 上 有 32 条 链 路 ， 每 条 链 路 上 传输 率 为 500MB/s， 总 带宽 达到 16GB/s。2011 年 推出 的 
PCle 3.0 将 8b/10b 编码 方式 改变 为 128b/130b， 而 且 可 运行 的 事物 速度 达到 80 亿 个 / 秒 ， 是 
PCle 2.0 的 2 倍 。 


3.6.3 HARITA USB 


PCI 总 线 和 PCI Express 对 于 连接 高 速 外 部 设备 到 计算 机 是 十 分 适合 的 ， 但 如 果 像 键盘 和 
鼠标 之 类 的 每 一 个 低速 设备 都 要 有 PCI 接口 的 话 ， 那 就 太 昂贵 了 。 一 直 以 来 ,每 个 标准 的 输 
入 /输出 设备 都 是 以 特别 的 方式 连接 到 计算 机 上 ， 即 使 用 空闲 的 ISA 或 PCI 插 槽 来 增添 新 的 
设备 。 但 不 幸 的 是 ， 这 种 方式 从 一 开始 就 有 许多 的 问题 。 

例如 ， 每 个 新 设备 显然 都 要 有 自己 的 ISA 或 PCI 卡 , 通常 需要 用 户 来 设置 卡 上 的 开关 和 
跳 线 ， 还 要 保证 他 们 的 设置 不 和 其 他 的 卡 冲 突 。 然 后 ， 他 们 还 要 打开 机 箱 ， 小 心地 把 卡 插 上 ， 
再 合 上 机 箱 ， 并 重新 启动 计算 机 。 对 于 许多 用 户 来 说 ， 这 个 过 程 太 困 难 了 ， 而 且 很 容易 出 错 。 
另外 ，ISA 和 PCI 插 权 的 数量 也 十 分 有 限 (一 般 也 就 两 三 个 )。 即 揪 即 用 卡 省 去 了 用 户 的 跳 线 
动作 ,但 他 们 还 是 要 打开 机 箱 来 插入 卡 ， 而 且 插 槽 的 数量 依然 有 限 。 

为 解决 这 个 问题 ，1993 年 七 家 公司 (Compaq, DEC, IBM, Intel, Microsoft, NEC 和 
Northern Telecom ) 的 代表 走 到 了 一 起 ,设计 了 一 个 将 低速 输入 /输出 设备 连接 到 计算 机 的 更 
好 的 方案 。 这 以 后 ， 数 百 家 其 他 公司 加 入 了 这 个 阵营 。 由 此 产生 的 标准 ， 于 1998 年 正式 发 
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ti, 命名 为 通用 串 行 总 线 ( Universal Serial Bus，USB )。 到 现在 ，USB 已 经 在 个 人 计算 机 上 
得 到 了 广泛 的 实现 。 推 荐 书目 中 的 ( Anderson, 1997 和 Tan, 1997) 对 它 作出 了 详细 的 描述 。 

最 早 参与 设计 并 将 USB 付 诸 实 现 的 公司 的 设计 目标 主要 如 下 : 

1 ) 用 户 不 必 再 设置 卡 上 、 设 备 上 的 开关 或 跳 线 。 

2) 用 户 不 必 再 打开 机 箱 来 安装 新 的 输入 /输出 设备 。 

3) 应 该 只 需要 一 种 电缆 线 就 可 以 将 所 有 设备 连接 起 来 。 

4) 输入 /输出 设备 应 可 以 从 电缆 上 得 到 电源 。 

5 ) 单 台 计 算 机 最 多 可 连接 127 个 设备 。 

6) 系统 应 能 支持 实时 设备 ( 如 声卡 、 电 话 )。 

7) 计算 机 运行 的 时 候 也 可 以 安装 设备 。 

8 ) 安装 新 设备 后 不 必 重 新 启动 计算 机 。 

9 ) 新 的 总 线 和 连接 它 的 输入 /输出 设备 的 生产 成 本 不 应 该 太 高 。 

USB 实现 了 所 有 这 些 目标 。 它 是 为 低速 设备 ， 如 键盘 、 鼠 标 、 静 物 照相 机 、 快 照 扫描 
仪 、 数 字 电 话 等 设计 的 。USB 的 1.0 版 本 的 带宽 是 1.53Mbps， 对 于 键盘 和 鼠标 之 类 的 设备 是 
足够 了 。 到 版 本 1.1 时 ， 带 宽 提 高 到 12Mbps， 可 满足 打印 机 、 数 码 相 机 等 许多 设备 的 要 求 。 
版 本 2.0 的 带宽 为 480Mbp， 足 以 支持 外 部 硬盘 、 高 清 网 络 摄像 头 以 及 网 络 接口 。 最 近 定 义 的 
USB 3.0 版 将 带宽 提高 到 5Gbps， 也 许 只 有 时 间 能 够 告诉 我 们 这 个 超 高 带宽 的 接口 会 带 来 哪些 
全 新 且 极 耗 带 宽 的 应 用 。 

通用 串 行 总 线 由 一 个 插 在 主 总 线 上 的 根 集线器 组 成 ( 见 图 3-50 )。 这 个 集线器 的 电缆 插 
口 可 以 连接 输入 /输出 设备 或 扩展 集线器 ， 以 提供 更 多 的 插口， 这 样 ， 通 用 串 行 总 线 系统 的 
拓扑 结构 就 成 了 一 棵 以 在 计算 机 内 部 的 根 集线器 为 根 的 树 。 电 缆 在 集线器 端 和 设备 端的 接口 
不 同 ， 可 以 防止 人 们 把 集线器 的 两 个 插口 连接 在 一 起 。 

电缆 中 有 四 根 导线 : 其 中 两 根 用 于 数据 传输 ， 一 根 用 作 电 源 (+5V )， 还 有 一 根 用 作 地 。 
数据 传输 编码 以 电压 的 转换 来 表示 0， 以 恒定 的 电压 来 表示 1， 这 样 ， 一 长 串 的 0 将 在 电缆 中 
产生 一 个 方 波 流 。 

当 插入 一 个 新 的 输入 /输出 设备 时 ， 根 集线器 检测 到 这 个 事件 ， 并 发 出 中 断 信和 号 给 操作 
系统 。 然 后 ， 操 作 系统 查询 设备 并 对 其 进行 识别 ， 得 到 这 个 设备 所 需要 的 通用 串 行 总 线 带 宽 。 
若 操作 系统 判断 还 有 足够 的 带宽 用 于 接 人 这 个 设备 ， 它 将 赋 给 设备 一 个 唯一 的 地 址 (1 ~ 127 
之 间 )， 并 将 这 个 地 址 和 其 他 一 些 信息 记录 到 设备 内 部 的 配置 寄存 器 中 。 通 过 这 种 方式 ， 可 以 
在 计算 机 运行 时 增添 新 的 设备 ， 不 需要 用 户 进 行 配置 ， 也 不 必 安 装 新 的 ISA 或 PCI 卡 。 未 初 
始 化 的 设备 的 地 址 是 0， 系 统 由 此 来 判断 是 否 有 新 设备 。 为 使 电缆 更 简单 一 些 ， 许 多 的 通用 
串 行 总 线 设备 含有 内 置 的 集线器 来 连接 另外 的 通用 串 行 总 线 设备 。 例 如 ， 监 视 器 上 就 可 能 有 
两 个 集线器 插口 ， 可 以 连接 左右 两 个 扬声器 。 

逻辑 上 讲 ， 通 用 串 行 总 线 系统 可 以 看 成 是 从 根 集线器 到 输入 /输出 设备 的 二 进 制 位 流 。 
每 个 设备 可 以 把 它 的 位 流 根据 数据 类 型 的 不 同 ( 如 音频 和 视频 ) 分 解 成 最 多 16 个 子 位 流 。 在 
每 个 位 流 或 子 位 流 内 部 ， 数 据 从 根 集线器 流 到 设备 或 反方 向 流动 。 两 个 输入 /输出 设备 之 间 
没有 流量 。 

精确 到 每 1.00+0.05 毫秒 ， 根 集线器 会 广播 一 个 新 帧 ， 以 对 所 有 的 设备 进行 时 间 同 步 。 
帧 和 位 流 有 关 ， 并 由 数据 包 组 成 ， 第 一 个 数据 包 总 是 从 根 集线器 到 设备 。 该 帧 的 后 续 包 可 能 还 
是 从 集线器 到 设备 ， 也 可 能 是 从 设备 发 回 到 根 集线器 。 图 3-57 给 出 了 由 4 帧 组 成 的 一 个 序列 。 
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3-57 通用 串 行 总 线 根 集线器 每 1 毫秒 发 出 一 个 帧 


图 3-57 中 ,第 0 帧 和 第 2 帧 中 没有 工作 要 做 ， 因 此 只 需要 发 送 一 个 SOF (Start of Frame, 
WEI) 包 。 这 个 包 总 是 广播 到 所 有 的 设备 。 第 1 帧 是 一 个 询问 , 例如， 请求 扫描 仪 返回 它 
正在 扫描 的 图 形 的 数据 。 第 3 帧 由 发 送 到 某 个 设备 的 数据 组 成 ， 比 如 发 送 到 打印 机 的 数据 。 

通用 串 行 总 线 支持 4 种 类 型 的 帧 : 控制 、 同 步 、 块 传送 和 中 断 。 控 制 帧 用 于 配置 设备 ， 对 
设备 发 出 命令 ， 并 查询 它们 的 状态 。 同 步 帆 用 于 那些 需要 以 精确 的 时 间 间 隔 发 送 和 接收 数据 的 
实时 设备 ， 比 如 麦克 风 、 扬 声 器 和 电话 等 。 它 们 之 间 存 在 可 以 准确 预测 的 延迟 ， 但 在 发 生 鲁 误 
时 数据 无 法 重 传 。 块 传送 帧 用 于 对 数据 没有 实时 要 求 的 设备 ， 如 打印 机 等 的 大 批量 数据 传送 。 
最 后 ， 由 于 通用 串 行 总 线 并 不 支持 中 断 ， 所 以 还 需要 中 断 帧 。 例 如 ， 如 果 在 键盘 上 的 键 按 下 时 
不 由 键盘 产生 中 断 ， 也 可 以 让 操作 系统 每 50 毫秒 轮 询 一 次 键盘 ， 采 集 已 经 键 人 的 键 。 

帧 由 一 个 或 多 个 包 组 成 ， 有 些 可 能 是 两 个 方向 传输 数据 。 一 共有 4 种 类 型 的 包 存 在 : > 
牌 包 、 数 据 包 、 握 手包 和 特别 包 。 令 牌 包 从 根 传送 到 设备 ， 用 于 系统 控制 。 图 3-57 中 的 
SOF, IN 和 OUT 包 都 是 令 牌 包 。SOF 包 是 每 帧 的 第 一 个 包 ， 标 志 着 一 帧 的 开始 。 如 果 不 需 
要 做 其 他 工作 ，SOF 包 就 是 该 帧 中 唯一 的 包 。IN 令 牌 包 用 于 轮 询 ， 请 求 设 备 返 回 要 求 的 数 
据 。 它 包含 的 域 中 指出 它 需 要 轮 询 的 是 哪个 位 流 ， 这样， 设备 就 可 以 知道 需要 它 返 回 什么 数 
E (如果 设备 有 多 个 数据 流 )。OUT 令 牌 包 表 示 后 面 跟 的 是 给 设备 的 数据 ; 还 有 第 4 种 令 牌 
包 SETUP (图 3-57 中 没有 标 出 )， 用 来 配置 设备 。 

除 令 牌 包 外 ， 还 有 其 他 三 种 类 型 的 包 ， 即 数据 包 ( 可 用 来 双向 传送 最 多 达 64 字 节 的 信 
息 )、 握 手包 和 特别 包 。 图 3-57 给 出 了 数据 包 的 格式 ， 它 用 8 位 (SYN ) 进行 同步 、8 位 
(PID) 说 明 数 据 类 型 ， 然 后 是 真正 要 传送 的 数据 载荷 (PAYLOAD )， 最 后 是 16 位 的 循环 宛 
余 码 ( CRC )， 用 于 检测 数据 错误 。 另 外 ， 还 定义 了 三 种 类 型 的 握手 包 : ACK ( 前面 的 数据 包 
已 正确 接收 )、NAK (检测 到 CRC 错 ) 和 STALL ( 请 稍 候 一 一 我 现在 很 忙 )。 

现在 ， 让 我 们 再 来 看 看 图 3-57。 即 使 什么 也 不 干 时 ， 每 1 毫秒 都 必须 有 一 帧 从 根 集线器 
发 出 。 第 0 帧 和 第 2 帧 中 只 有 SOF 包 ， 表 示 没 有 工作 要 做 。 第 1 帧 是 轮 询 帧 ， 所 以 它 以 SOF 
包 开 始 ， 然 后 是 从 计算 机 到 输入 /输出 设备 的 IN 包 ， 后 面 是 从 设备 发 送 到 计算 机 的 DATA 
包 ， 由 ACK 包 通 知 设备 数据 已 被 正确 接收 。 如 果 出 错 ， 将 向 设备 发 回 一 个 NAK 包 ， 然 后 ， 
该 包 将 以 块 传送 帧 的 方式 重 传 (但 不 传 同步 数据 )。 第 3 帧 在 结构 上 和 第 1 帧 类 似 ， 只 是 在 这 
帧 中 数据 是 从 计算 机 传送 到 设备 。 
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1998 年 ，USB 标准 最 终 完成 后 ，USB 的 设计 者 无 事 可 干 ， 又 开始 了 一 个 更 高 速度 的 
USB 版 本 的 设计 ， 即 USB 2.0。 这 个 标准 和 已 有 的 USB 1.1 版 本 类 似 ， 且 完全 兼容 它 ， 只 是 
在 前 两 个 版 本 提供 的 两 种 传输 速度 上 ， 增 加 了 480Mbps 的 第 三 级 传输 速度 。 当 然 ， 还 有 其 他 
一 些 细小 的 差别 ， 如 根 集线器 和 控制 器 之 间 的 接口 ,在 USB 1.1 中 有 两 种 。 第 一 种 为 通用 主 
机 控制 器 接口 (Universal Host Controller Interface，UHCI )， 由 Intel 设计 ， 将 主要 的 负担 交 
由 软件 设计 者 完成 ( 上 暗 指 : Microsoft )。 第 二 种 为 开放 主机 控制 器 接口 (Open Host Controller 
Interface，OHCI )， 由 Microsoft 设计 ， 将 主要 的 负担 交 由 硬件 设计 者 完成 (上 暗 指 : Intel )。 到 
USB2.0 时 ， 大 家 都 同意 采用 单一 的 新 接口 增强 主机 控制 器 接口 (Enhanced Host Controller 
Interface, EHCI )。 

有 了 480Mbps 的 USB， 显 然 就 和 颇 为 流行 的 、 名 为 Firewire 的 IEEE 1394 串 行 总 线 有 了 
竞争 关系 ， 它 的 速度 为 400Mbps 或 800Mbps。 尽 管 目前 每 台 基 于 Intel 的 PC 都 装 上 了 USB 2.0 
或 3.0( 见 后 )，1394 倾向 于 走向 消失 。 但 由 于 地 盘 之 争 ，1394 的 消失 并 不 如 预计 得 那么 快 。 
USB 是 计算 机 产业 的 产品 ， 而 1394 则 来 自 于 消费 电子 行业 。 当 要 将 照相 机 连接 到 计算 机 时 ， 
两 个 行业 都 要 求 用 户 使 用 自己 的 连接 线 。 现 在 看 来 是 计算 机 这 边 取 得 了 胜利 。 

USB 2.0 出 现 8 年 后 ，USB 3.0 接口 标准 问世 。 尽 管 链 路 的 调制 是 自 适 应 的 , 但 USB 3.0 
能 支持 的 带宽 最 高 达到 了 惊人 的 5Gbps， 当 然 这 个 最 高 速度 仅 能 在 专业 级 的 电缆 线 上 实现 。 
USB 3.0 的 设备 和 早期 的 USB 设备 结构 上 相同 ， 并 完全 实现 了 USB 2.0 的 标准 。 因 此 ， 将 
USB 3.0 的 设备 插 到 USB 2.0 的 插 模 上 也 是 能 正常 工作 的 。 
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典型 的 小 规模 到 中 规模 集成 电路 计算 机 系统 由 CPU 芯片 、 芯 片 组 、 内 存世 片 及 一 些 输入 
/输出 控制 器 组 成 ， 所 有 这 些 都 通过 总 线 连接 在 一 起 。 有 时 ， 所 有 这 些 设备 也 被 集成 到 一 个 片 
上 系统 中 ， 如 TI OMAP4430 SoC 芯片 。 我 们 已 经 详细 讨论 过 内 存 、CPU 和 总 线 ， 现 在 该 是 
讨论 最 后 的 一 部 分 一 -输入 /输出 接口 的 时 候 了 。 计 算 机 正 是 通过 这 些 芯片 和 外 部 世界 交换 
信息 的 。 


3.7.1 输入 /输出 接口 


目前 已 有 了 许多 的 输入 /输出 接口 ， 而 且 随 时 都 有 新 的 接口 推出 。 常 见 的 有 UART, 
USART, CRT 控制 器 、 磁 盘 控制 器 和 了 PIO 等 。 通 用 异步 收发 器 ( Universal Asynchronous 
Receiver Transmitter, UART ) 实际 上 是 一 片 串 行 IO 接口 ， 可 以 从 数据 总 线 中 读 和 人 一 个 
字 节 的 数据 ， 然 后 在 串 行 线 上 逐 位 输出 到 终端 ， 或 从 终端 读 人 数据 。UART 通常 可 以 以 
50 ~ 19 200bps 的 不 同 速度 工作 ; 字符 宽度 可 以 为 5 ~ 8 位 ; 可 以 有 1 个 、1.5 个 或 2 个 
停止 位 ; 可 提供 奇 校 验 、 偶 校 验 和 无 校 验 三 种 校 验方 式 ; 所 有 这 些 都 可 以 通过 程序 来 设置 。 
通用 同步 异步 收发 器 (Universal Synchronous Asynchronous Receiver Transmitter, USART ) 
可 以 通过 一 系列 协议 来 同步 传送 数据 ， 也 能 完成 UART 的 所 有 功能 。 随 着 连接 电话 线 的 调 
制 解 调 器 逐渐 消失 ，UART 已 经 不 那么 重要 ， 下 面 我 们 以 一 片 输 入 /输出 芯片 为 例 来 讨论 并 
行 接口 。 

PIO 接口 

图 3-58 所 示 的 是 基于 经 典 的 Intel 8255A 的 一 个 并 行 输入 /输出 (Parallel Input/Output, 
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PIO) 接口 。 它 有 一 组 输入 /输出 信和 号 线 (例如 ， 图 3-58 例子 中 的 是 24 根 )， 可 以 作为 连接 
任何 数字 逻辑 设备 的 接口 ， 如 键盘 、 开 关 、 指 


示 灯 或 打印 机 等 。 简 单 地 说 ，CPU 的 程序 可 以 > ii 
向 任何 信号 线 写 和 人 0 或 1， 也 可 以 读 人 任何 信 A 

wo WR 并 行 输入 /输出 | 8 poe 
号 线 的 输入 状态 ， 这 为 使 用 提供 了 极 大 的 灵活 。 元 cro) a 


性 。 一 个 小 型 的 带 有 CPU 的 系统 加 上 一 片 PIO 
芯片 ， 可 以 控制 各 种 物理 设备 ， 如 机 器 人 、 烤 on 
箱 或 电子 显微镜 。PIO 接口 也 常用 于 众人 式 系 
统 中 。 

该 PIO 接口 可 通过 一 个 3 位 的 配置 寄存 器 进行 配置 ， 具 体 来 说 就 是 向 配置 寄存 器 中 对 应 
的 位 写 0 或 1, 来 设置 3 个 独立 的 8 位 端口 完成 数字 信和 号 的 输入 或 输出 。 这 样 ， 通 过 在 配置 
寄存 器 中 写 人 适当 的 值 ， 可 使 3 个 端口 任意 完成 输入 输出 功能 。 每 个 端口 都 对 应 着 一 个 8 位 
的 锁 存 器 。 为 在 输出 端口 的 数据 线 上 输出 数据 ，CPU 仅 需 要 将 8 位 数据 写 人 到 该 锁 存 器 中 ， 
这 些 数据 就 会 一 直 在 端口 线 上 保持 到 寄存 器 的 数据 被 改写 。 要 从 一 个 配置 为 输入 功能 的 端口 
读数 据 ，CPU 也 只 需要 读 它 所 对 应 的 8 位 锁 存 器 。 

构造 更 为 复杂 的 PIO 接口 也 是 有 可 能 的 。 例 如 ， 一 种 很 流行 的 操作 模式 是 和 外 部 设备 进 
行 “ 握 手 "。 当 要 输出 数据 到 某 个 可 能 无 法 随时 接收 数据 的 设备 时 ，PIO 可 以 把 数据 放 到 某 个 
输出 端口 ， 然 后 等 待 设备 发 过 来 的 脉冲 ， 表 示 设 备 已 经 接收 了 当前 数据 ， 并 准备 接收 下 一 个 
数据 。 锁 定 这 些 脉 冲 信 号 并 让 其 可 被 CPU 访问 ， 则 每 个 输出 端口 必需 的 逻辑 电路 应 包括 一 个 
“Ready” 信 和 号 加 上 一 个 8 位 的 寄存 器 队列 。 

从 PIO 的 功能 图 中 我 们 可 以 看 到 ， 除 了 3 个 端口 的 24 根 信 和 号 线 之 外 ， 它 还 有 8 根 直接 
和 数据 总 线 相连 的 信号 线 ， 片 选 信 号 线 、 读 信号 线 和 写 信号 线 、 两 根 地 址 信号 线 ， 以 及 用 来 
重 置 芯片 的 信号 线 。 两 根 地 址 信号 线 用 于 选 定 分 别 对 应 于 端口 A、B、C 的 数据 寄存 器 以 及 配 
置 寄存 器 的 4 个 内 部 寄存 器 。 一 般 情 况 下 ， 两 根 地 址 信号 线 和 地 址 总 线 的 低 两 位 连接 。 片 选 
信号 可 以 使 多 个 24 位 的 PIO 接口 组 合成 更 大 的 PIO 接口 ， 组 合 的 方法 是 增加 地 址 线 的 条 数 ， 
并 用 它们 来 驱动 恰当 的 PIO 接口 的 片 选 信号 。 





图 3-58 一 个 24 位 并 行 输入 /输出 接口 


3.7.2 地址 译 码 


直到 现在 ， 我 们 一 直 小 心地 避免 提 及 前 面 讨论 的 内 存 芯 片 和 输入 /输出 芯片 所 需 的 片 选 
信号 是 如 何 发 出 的 这 个 问题 。 现 在 应 该 是 来 仔细 说 明 这 个 问题 的 时 候 了 。 我 们 来 看 一 个 简单 
的 16 位 散人 式 计算 机 系统 ， 它 由 一 个 CPU、 一 片 用 来 存放 程序 的 2K x 8 字 节 的 EPROM, — 
片 用 于 存放 数据 的 2K x8 字 节 的 RAM 和 一 片 并 行 输入 /输出 接口 组 成 。 这 种 小 型 系统 可 以 
用 于 廉价 玩具 或 简单 设备 的 “大 脑 ”"。 一 旦 产品 化 ，EPROM 就 可 以 替换 成 ROM。 

并 行 输入 /输出 芯片 可 以 通过 两 种 途径 选中 : 作为 纯 输 入 /输出 设备 或 者 作为 内 存 的 一 
部 分 。 如 果 我 们 设计 把 它 用 作 输 入 /输出 设备 ， 则 必须 使 用 一 个 明确 的 总 线 信 号 来 指明 现在 
CPU 要 访问 的 是 输入 /输出 设备 ， 而 不 是 内 存 。 如 果 设 计时 使 用 一 种 其 他 的 实现 方式 一 一 内 
存 映射 输入 / 输出， 我 们 就 必须 分 别 对 3 个 端口 和 控制 寄存 器 设 定 4 字 节 的 内 存 地 址 空间 。 
两 种 方式 有 点 二 选 一 的 意味 。 我 们 选择 内 存 映 象 输入 /输出 方式 ， 因 为 它 能 说 明 IO 接口 中 一 
些 有 趣 的 问题 。 
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EPROM 需要 2KB 的 地 址 空间 ，RAM 也 需要 2KB 的 地 址 空间 ， 而 并 行 输入 /输出 接口 
需要 4 字 节 的 地 址 空间 。 由 于 我 们 的 例子 中 的 地 址 空间 为 64K， 也 就 是 说 ， 必 须 选 定 在 哪些 
地 址 空间 来 安排 这 三 个 空间 。 图 3-59 所 示 的 就 是 一 个 可 能 的 选择 。EPROM 占用 0 ~ 2K 的 
地 址 ，RAM 占用 32K ~ 34K 的 地 址 ， 并 行 输入 /输出 接口 占用 地 址 空间 的 最 高 的 4 个 字 节 ， 
65 532 ~ 65 535。 从 程序 员 的 角度 看 ， 使 用 哪些 地 址 并 没有 什么 区 别 ; 但 是 ， 对 接口 来 说 ， 
就 不 是 这 样 了 。 若 我 们 选择 通过 输入 /输出 端口 的 地 址 空间 来 寻 址 并 行 输入 输出 接口 ， 则 将 不 
需要 任何 的 内 存 地 址 (但 需要 4 个 输入 /输出 端口 地 址 )。 

EPROM 放 在 地 址 0 RAM 放 在 地 址 8000H PIO 放 在 地 址 FFFCH 











0 4K 8K 12K 16K 20K 24K 28K 32K 36K 40K 44K 48K 52K 56K 60K 64K 


图 3-59 64K 地 址 空间 分 配给 EPROM, RAM 和 并 行 输 入 /输出 接口 


采用 图 3-59 所 示 的 地 址 分 配方 案 ，EPROM 应 该 是 被 任何 一 个 格式 为 00000xxxxxxxxxxx 
(二 进 制 ) 的 16 位 内 存 地 址 选中 。 换 名 话 说 ,任何 一 个 最 高 5 位 都 为 0 的 地 址 都 将 落 在 最 低 
2K 的 内 存 ， 即 EPROM 中 。 这 样 ，EPROM 的 片 选 信号 应 该 由 一 个 5 位 的 比较 器 给 出 ， 比 较 
器 的 一 个 输入 应 该 永远 是 00000。 

能 达到 同样 效果 的 较 好 一 些 的 一 个 方案 是 用 一 个 5 输入 或 门 来 实现 ， 将 它 的 5 个 输入 信 
号 分 别 和 地 址 信号 的 Al1 ~ A15 连接 ， 这 样 ， 当 且 仅 当 5 个 输入 都 为 0 时 ， 输 出 才 为 0， 片 
选 信号 CS 才 有 效 CCS 为 低 电 平 有 效 ) E 3-60a 给 出 了 这 种 地 址 译 码 的 方式 ， 我 们 称 为 全 地 
址 译 码 。 

对 于 RAM 我们 可 以 采取 完全 相同 的 办 法 。 当 然 ,， RAM 对 应 的 二 进 制 地 址 格式 应 为 
10000xxxxxxxxxxx， 所 以 图 3-60 中 另 加 了 一 个 反 门 。 并 行 输入 /输出 接口 的 端口 地 址 译 码 就 
复杂 一 些 ， 因 为 它 要 由 格式 为 11111111111111xx 的 4 个 地 址 来 选 定 。 图 3-60 中 给 出 的 是 能 在 
只 有 正确 的 地 址 输入 时 才 发 出 片 选 信和 号 CS 的 实现 方案 的 一 种 。 它 选用 了 两 个 8 输入 与 非 门 
来 作为 或 门 的 输入 。 

可 是 ， 如 果 该 计算 机 系统 实际 上 仅 由 CPU、 两 片 内 存 接口 和 并 行 输入 /输出 接口 组 成 ， 
我 们 就 可 能 使 用 一 个 “小 把 戏 ” 来 极 大 地 简化 地 址 译 码 。 这 个 “把 戏 ” 的 基础 在 于 此 时 有 且 
只 有 EPROM 的 地 址 的 最 高 位 A15 才 为 0。 因 此， 我 们 只 需要 如 图 3-60b 所 示 那 样 ， 直 接 把 
A15 作为 EPROM 的 片 选 信号 。 

此 时 ,将 RAM 放 到 80000H 上 就 不 那么 随意 了 。 对 于 RAM 的 译 码 ， 我 们 可 以 注意 到 ， 
只 有 格式 为 10xxxxxxxxxxxxxx 的 地 址 才 是 RAM 的 合法 地 址 ， 因 此 ， 只 需要 对 这 两 位 地 址 进 
行 译 码 就 足够 了 。 类 似 地 ， 以 11 起 始 的 任何 地 址 就 必然 是 并 行 输入 /输出 接口 的 端口 地 址 。 
这 样 ， 所 有 的 译 码 逻辑 只 需要 两 个 与 非 门 加 一 个 反 门 就 足以 实现 了 。 

图 3-60b 中 的 地 址 译 码 就 是 部 分 地 址 译 码 ， 因 为 并 非 所 有 的 地 址 都 参与 了 译 码 。 它 的 特点 
是 从 地 址 0001000000000000、0001100000000000 和 0010000000000000 读 出 的 将 是 同一 个 结果 。 
事实 上 ， 地 址 空间 的 低 一 半 地 址 都 可 以 选 定 EPROM。 但 我 们 并 没有 用 到 另外 的 地 址 空间 ， 所 
以 不 会 有 任何 问题 。 可 是 ， 如 果 你 设计 的 计算 机 系统 今后 可 能 要 扩展 (这 大 概 不 太 可 能 发 生 在 
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一 个 玩具 中 )， 你 应 该 尽量 避免 使 用 部 分 地 址 译 码 ， 因 为 它 将 占用 太 多 的 地 址 空间 。 
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还 有 一 种 常用 的 地 址 译 码 技术 是 使 用 如 图 3-13 所 示 的 译 码 器 。 将 高 3 位 地 址 连接 到 译 码 
器 的 3 个 输入 信号 ， 我 们 能 得 到 8 个 输出 信号 ， 分 别 对 应 第 1 个 8K 地 址 空间 、 第 2 个 8K Hh 
址 空间 ， 等 等 。 对 于 由 8 片 8K x8 的 RAM 组 成 的 计算 机 内 存 系统 ，1 片 译 码 器 芯片 就 可 以 
完成 全 部 地 址 译 码 工作 。 而 对 于 由 8 片 2K x 8 的 内 存 芯片 组 成 的 系统 ， 一 个 译 码 器 也 是 足够 
的 ， 只 不 过 每 片 内 存 芯 片 的 地 址 空间 都 将 位 于 不 同 的 8K 地 址 空间 块 ， 片 与 片 之 间 的 地 址 不 
连续 。( 请 回忆 我 们 前 面 提 到 的 有 关内 存 和 输入 /输出 芯片 的 地 址 空间 的 内 容 。) 
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3.8 小 结 


计算 机 由 包含 很 多 称 为 门 的 微型 开关 的 集成 电路 制造 而 成 。 最 普通 的 门 为 与 门 、 或 门 、 
与 非 门 、 或 非 门 和 非 门 。 将 这 些 门 直 接 组 合 起 来 就 可 以 搭 出 一 些 简单 的 电路 。 

复杂 一 些 的 电路 有 多 路 选择 器 、 多 路 分 解 器 、 编 码 器 、 译 码 器 、 移 位 器 和 算术 逻辑 部 
件 CALU )。 仲 裁 逻 辑 电 路 可 以 用 可 编程 逻辑 阵列 (FPGA) 实现 。 如 果 需 要 多 个 逻辑 函数 ， 
FPGA 就 更 有 优势 了 。 布 尔 代 数 的 定律 可 以 用 来 将 电路 从 一 种 形式 转换 为 另 一 种 形式 。 在 许 
多 情况 下 ， 可 以 用 这 种 办 法 来 得 到 更 简洁 、 经 济 的 电路 。 

计算 机 通过 加 法 器 来 完成 算术 运算 。1 位 全 加 器 可 以 由 两 个 半 加 器 构成 ， 多 位 加 法 器 则 
是 由 多 个 全 加 器 组 成 的 ， 每 个 全 加 器 都 把 自己 产生 的 进位 传 给 它 左边 的 那个 全 加 器 。 

(静态 ) 存储 器 由 锁 存 器 或 者 触发 器 组 成 ， 它 们 都 能 存放 1 位 信息 。 可 以 将 它们 线性 组 合 
成 任意 位 的 字 ， 并 构成 内 存储 器 。 内 存 可 以 分 为 RAM、ROM、PROM、EPROM、EEPROM 
和 内存。 静态 存储 器 不 需要 刷新 ， 只 要 不 断 电 ， 它 可 以 一 直 保 存 数 据 。 与 此 相反 ， 动 态 存储 
器 必须 定期 刷新 ， 以 补偿 芯片 中 小 电容 的 电荷 的 泄漏 。 

计算 机 系统 中 的 各 个 部 件 通 过 总 线 连接 在 一 起 。 一 般 CPU 的 多 数 管 脚 ， 但 不 是 全 部 ， 可 
以 直接 驱动 一 个 总 线 信号 。 总 线 信号 可 以 分 为 地 址 信和 号、 数据 信号 和 控制 信和 号。 同步 总 线 由 
同一 个 主 时 钟 驱 动 ， 异 步 总 线 以 全 握手 方式 来 使 从 设备 和 主 设备 同步 。 

Core i7 是 现代 CPU 的 一 个 例子 。 使 用 它 的 现代 计算 机 系统 有 一 条 内 存 总 线 、 一 条 了 PCIe 
总 线 和 一 条 USB 总 线 。 通 过 PCIe 总 线 将 计算 机 内 部 各 部 件 高 速 连接 起 来 现在 已 成 为 主流 的 
方式 。ARM 也 是 目前 的 高 端 CPU， 主 要 用 于 内 人 式 系统 和 移动 设备 ， 这 些 应 用 场合 中 能 耗 
是 十 分 重要 的 。Atmel ATmega 168 是 廉价 芯片 的 一 个 例子 ， 它 适用 于 一 些 价 格 低廉 的 小 玩 艺 ， 
或 者 是 其 他 许多 对 价格 比较 敏感 的 应 用 。 

开关 、 指 示 灯 、 打 印 机 和 许多 其 他 的 输入 /输出 设备 可 以 用 并 行 输入 /输出 接口 接 人 计算 
机 。 这 些 芯 片 可 根据 需要 配置 成 输入 /输出 地 址 空间 或 内 存 地 址 空间 的 一 部 分 ， 并 根据 应 用 
的 不 同 进行 全 地 址 译 码 或 部 分 地 址 译 码 。 


习题 


1. 模拟 电路 受 噪 声 影响 ， 会 使 其 输出 变形 。 数 字 电 路 是 否 不 受 噪 声 影响 ? 请 讨论 。 

2. 一 个 逻辑 学 家 驾车 进入 一 个 汽车 饭店 ， 并 告诉 服务 员 说 :“ 我 要 一 个 汉堡 或 一 个 热狗 与 法 
HME.” 可是， 接待 他 的 服务 员 在 六 年 级 时 就 因 不 及 格 而 退学 ， 而 且 不 知道 (或 没 在 意 ) 
“与 ”的 优先 级 是 否 比 “或 ”高 。 以 他 的 理解 程度 ， 下 面 的 解释 都 是 正确 的 。 你 认为 下 面 哪 
些 解 释 是 逻辑 学 家 的 真实 意图 ? (注意 : 英语 中 的 “或 ” 即 是 “ 异 或 ”。) 

a. 只 要 一 个 汉堡 。 

只 要 一 个 热狗 。 

只 要 一 个 法 式 煎 蛋 。 

一 个 热狗 和 一 个 法 式 前 蛋 。 

一 个 汉堡 和 一 个 法 式 前 和 蛋 。 

一 个 热狗 和 一 个 汉堡 。 

. 三 个 都 要 。 
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h. D ERRER A aR EA H T A ER TRR 

. 一 个 传道 士 在 南 加 利 福 尼 亚 车 站 旁 的 岔路 口 迷 路 了 。 他 知道 该 地 区 有 两 帮 飞 车 族 ， 一 帮 只 
说 实话 ， 另 一 帮 只 说 谎言 。 传 道士 要 去 迪斯尼 乐园 ， 他 应 该 怎样 问 路 ? 

.用 真 值 表 证 明 X= (XAND Y) OR (XAND NOT Y), 

. 对 于 单个 变量 ， 存 在 4 种 不 同 功能 的 布尔 函数 ; 对 于 2 个 变量 ， 可 以 有 16 种 不 同 功能 的 布 
尔 函 数 。3 个 变量 会 有 多 少 个 不 同 功能 的 布尔 函数 ? n 个 变量 呢 ? 

. 对 于 单个 变量 ， 存 在 4 种 不 同 功能 的 布尔 函数 ; 对 于 2 个 变量 ， 可 以 有 16 种 不 同 功能 的 布 
尔 函 数 。4 个 变量 会 有 多 少 个 不 同 功能 的 布尔 函数 ? 

, 给 出 用 两 个 与 非 门 实现 逻辑 与 的 方法 。 

.用 图 3-12 中 的 三 变量 多 路 复 用 器 芯片 ， 实 现 输出 为 输入 的 偶 校 验 这 样 一 个 函数 ， 也 就 是 
说 ， 当 上 且 仅 当 输入 信号 中 有 奇数 个 1 时 输出 才 为 Lo 

. 开动 脑筋 。 图 3-12 中 的 三 变量 多 路 选择 器 芯片 实际 上 可 以 用 来 实现 四 变量 〈Boolean 变量 ) 
的 仲裁 函数 。 请 说 明 如 何 实 现 ， 并 作为 例子 ， 画 出 下 面 函数 的 逻辑 电路 图 : 函数 的 真 值 表 
中 一 行 的 值 的 英文 单词 中 如 果 有 偶数 个 字母 的 话 ， 函 数值 为 0 ; 如 果 为 奇数 的 话 ， 函 数值 
为 1。( 例如: 0000 的 英文 为 zero， 有 四 个 字母 ， 所 以 输出 为 0 ; 0111 的 英文 为 seven， 有 
5 个 字母 ， 所 以 输出 为 1; 1101 的 英文 为 thirteen， 有 8 个 字母 ， 所 以 输出 为 0)。 提示: 如 
果 我 们 定义 第 四 个 输入 变量 为 D，8 根 输入 信和 号 可 以 连接 Ve Hi, DAD, 

10. 画 出 2 位 编码 器 的 逻辑 电路 图 。 该 电路 有 4 个 输入 信和 号， 任何 时 刻 都 只 有 其 中 的 一 个 为 高 
电 平 ， 用 两 个 输出 信号 的 二 进 制 值 来 表示 哪个 输入 信和 号 为 高 。 

. 画 出 2 位 译 码 器 的 逻辑 电路 图 ， 这 是 由 一 个 输入 信和 号 根据 两 个 控制 信号 的 状态 来 触发 4 个 
输出 信号 之 一 的 电路 。 

12. 下 图 所 示 的 电路 实现 了 什么 功能 ? 
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13. 4 位 加 法 器 是 一 种 常见 的 集成 电路 芯片 。4 片 这 种 芯片 可 以 连接 成 一 个 16 位 加 法 器 。 你 估 
计 4 位 加 法 器 芯片 会 有 多 少 个 管 脚 ? 为 什么 ? 

14. n 个 全 加 器 串 行 连接 在 一 起 可 以 组 成 一 个 二 位 的 加 法 器 ， 第 ;级 的 进位 Ci 来 自 天 1 级 的 输 
出 。 第 0 级 的 进位 Co 为 0。 如果 每 级 需要 了 纳 秒 来 产生 加 法 的 结果 和 进位 ， 那 么 ， 从 开 
始 加 法 运算 开始 后 江 纳 秒 进位 才能 到 达 第 i 级 的 全 加 器 。 对 n 比较 大 的 时 候 ， 进 位 传递 到 
最 高 级 的 那个 全 加 器 的 时 间 将 是 不 可 接受 的 。 请 设计 一 个 工作 起 来 更 快 一 点 的 加 法 器 。 提 
示 : 每 个 Ci 可 以 由 操作 数 Ar 和 Bi- 及 进位 Ci 计算 得 到 。 用 这 种 表达 式 就 有 可 能 将 C 
表示 成 从 第 0 级 到 第 i-1 级 的 输入 组 成 的 表达 式 计 算出 来 ， 这 样 ， 所 有 的 进位 都 可 以 同时 
产生 。 

15. 若 图 3-18 中 的 所 有 门 的 传播 延迟 都 是 1 纳 秒 ， 且 其 他 所 有 的 延迟 都 可 以 被 忽略 ， 那 么 ， 
使 用 这 个 设计 的 电路 最 快 什么 时 候 可 以 确保 得 到 正确 的 输出 ? 
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16. 图 3-19 所 示 的 ALU 可 以 完成 8 位 的 补 码 的 加 法 。 它 能 完成 补 码 的 减法 吗 ? 如 果 能 ， 请 解 
释 原 因 。 若 不 能 ， 请 对 其 进行 改进 ， 使 它 可 以 完成 补 码 减法 。 

17. 某 16 位 ALU 由 16 个 1 位 ALU 组 成 ,每 个 1 位 ALU 完 成 一 次 加 法 需要 10 A. E 
结果 从 1 个 这 样 的 ALU 传递 到 下 一 个 还 有 1 纳 秒 的 延迟 ， 完 成 整个 16 位 的 加 法 需要 多 长 
时 间 ? 

.有 时 ， 由 类 似 图 3-19 所 示 的 8 位 ALU 产生 常量 -1 作为 结果 输出 是 有 用 的 。 给 出 两 种 不 
同 的 实现 方法 。 对 每 种 方法 ， 分 别 给 出 6 个 控制 信号 的 取 值 。 

.输入 到 由 两 个 与 非 门 构成 的 SR 锁 存 器 的 输入 信号 S AR 的 稳定 状态 是 什么 ? 

.图 3-25 所 示 的 是 一 个 由 时 钟 上 升 沿 触发 的 触发 器 电路 。 请 对 其 进行 修改 ， 使 它 成 为 由 时 
钟 下 降 沿 触发 的 触发 器 。 

.图 3-28 中 的 4x3 内 存 使 用 了 22 个 与 门 和 3 个 或 门 。 如 果 该 电路 要 扩展 到 256 x8， 将 需 
要 多 少 个 与 门 和 或 门 ? 

. 为 使 你 能 收回 在 个 人 计算 机 上 的 投资 ， 你 开始 从 事 对 小 规模 集成 电路 芯片 制造 商 的 咨询 工 
作 。 你 的 一 个 客户 应 一 个 潜在 的 重要 用 户 的 要 求 ， 准 备 推出 一 片 包含 4 个 了 触发 器 的 芯 
片 ， 每 个 D 触发 器 要 有 自己 的 Q 和 Q 信号 、4 个 触发 器 共用 同一 个 时 钟 信号 ， 但 没有 预 
置 和 清除 信号 。 他 们 要 求 你 对 这 个 设计 方案 作出 专业 的 评价 。 

23. 随 着 单 片 内 存 芯 片 的 存储 容量 的 不 断 增 大 ， 它 所 需要 的 地 址 管 脚 数 也 在 增加 。 但 是 ， 一 片 
芯片 上 有 太 多 的 地 址 管 脚 总 是 不 太 方 便 。 设 计 一 个 方案 ,使 得 用 少 于 个 地 址 管 脚 就 可 以 
实现 对 2 个 内 存 字 的 寻 址 。 

. 某 台 数据 总 线 宽度 为 32 位 的 计算 机 使 用 的 是 1M x 1 的 动态 存储 器 芯片 。 该 计算 机 可 能 的 
最 小 内 存 容量 是 多 少 ( 以 字 节 为 单位 ) 2 

25. 如 图 3-37 Aran, 假设 时 钟 周 期 从 10 纳 秒 延长 到 20 纳 秒 ， 但 时 序 间 的 限制 条 件 保持 不 变 。 
那么 ， 在 最 坏 的 情况 下 ， 中 的 MREQ 信和 号 发 出 后 多 久 内 存 就 必须 把 数据 送 上 总 线 ? 

. 如 图 3-37 所 示 ， 如 果 时 钟 频率 保持 在 100MHz, 但 Tos 增加 到 4 纳 秒 ， 此 时 还 能 用 10 44 
秒 的 内 存世 片 吗 ? 

27. 图 3-37b P, Tm 被 限定 在 至 少 要 2 纳 秒 。 你 能 想象 与 此 相反 的 一 片 芯片 吗 ? 也 就 是 说 ， 
CPU 可 以 在 地 址 稳定 之 前 发 出 MREQ 信和 号 吗 ? 请 给 出 理由 。 

. 假设 图 3-41 所 示 的 块 传送 是 由 图 3-37 所 示 的 总 线 来 完成 。 使 用 块 传送 比 用 单个 传送 发 送 
一 个 很 大 的 块 带宽 提高 了 多 少 ? 如 果 总 线 的 宽度 不 是 8 位 而 是 32 位 ， 提 高 的 带宽 又 是 多 
少 ? 

. 将 图 3-38 中 地 址 信号 的 转变 时 间 分 别 标记 为 Ti Al To, MREQ 信和 号 的 转变 时 间 标 记 为 
Turco 和 Turo 等 。 写 出 全 握手 方式 中 隐 含 的 所 有 关于 时 间 的 不 等 式 。 

30. 多 核 芯 片 ， 也 就 是 同一 芯片 内 有 多 个 CPU， 正 逐渐 流行 。 在 由 多 台 通 过 以 太 网 连接 的 PC 
组 成 的 系统 中 ， 多 核 芯片 有 什么 优势 ? 

. 为 什么 多 核 芯片 突然 流行 起 来 ? 有 什么 技术 因素 促进 了 它 的 流行 ? Moore 定律 起 作用 了 
ny? 

32. 存储 总 线 和 PCI 总 线 有 哪些 不 同 ? 

33. 大 多 数 的 32 位 总 线 可 以 进行 16 位 数据 读 写 操作 。 此 时 用 哪些 信号 线 传递 数据 会 有 区 别 
四? 请 讨论 。 

.许多 CPU 对 中 断 应 答 都 有 特殊 的 总 线 周期 类 型 。 为 什么 ? 
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35, 某 32 位 计算 机 总 线 频率 为 400MHz， 需 要 4 个 周期 读 取 一 个 32 位 的 字 。 最 坏 情况 下 ， 也 
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就 是 进行 连续 的 读 或 者 写 时 ，CPU 占用 的 总 线 带 宽 是 多 少 ? 
某 64 位 计算 机 总 线 频率 为 400MHz， 需要 4 个 周期 读 取 一 个 64 位 的 字 。 最 坏 情 况 下 ， 也 
就 是 进行 连续 的 读 或 者 写 时 ，CPU 占用 的 总 线 带 宽 是 多 少 ? 


. 某 32 位 计算 机 的 地 址 信号 只 有 A2 ~ A31， 因 此 ， 它 所 有 的 内 存 访 问 都 要 求 对 齐 。 即 每 个 


字 都 要 存放 在 地 址 为 4 字 节 的 整数 倍 的 位 置 ， 而 每 个 半 字 都 要 存放 在 偶数 字 节 地 址 上 。 只 
有 字 节 可 以 任意 存放 。 那 么 ， 对 内 存 读 ， 有 多 少 种 合法 的 组 合 ” 需 要 多 少 个 管 脚 来 表示 它 
们 ? 给 出 这 两 个 答案 并 分 别 举 例 说 明 。 


. 现代 的 CPU 都 有 1 级 、2 级 甚至 3 级 片上 高 速 缓存 。 为 什么 需要 多 级 的 高 速 缓存 ? 
. 假定 某 CPU 有 第 1 级 和 第 2 级 高 速 缓存 ， 其 访问 速度 分 别 是 1 纳 秒 和 2 纳 秒 。 内 存 的 访 


问 速度 是 10 纳 秒 。 如 果 第 1 级 高 速 缓存 的 命中 率 为 20%， 第 2 级 高 速 缓存 的 命中 率 为 
60%， 则 CPU 对 内 存储 器 的 平均 访问 时 间 是 多 少 ? 


. 计算 以 30 帧 / 秒 显 示 一 段 VGA (1280 x 960 ) 真 彩色 动画 所 需要 的 总 线 带 宽 。 假 定数 据 


需要 从 总 线 通过 两 次 ， 一 次 为 从 CD-ROM 到 内 存 ， 另 一 次 从 内 存 到 显示 器 。 


.图 3-54 中 的 哪个 信号 严格 讲 对 总 线 协议 的 工作 不 是 必需 的 ? 
. 某 PCI Express 系统 具有 10Mbps ( 总 传输 率 ) 的 链 路 。 对 16x 操作 ， 每 个 方向 需要 多 少 信 


号 线 ? 每 路 的 总 传输 率 是 多 少 ? 每 路 的 有 效 传输 率 又 是 多 少 ? 


. 某 计 算 机 的 指令 都 用 两 个 总 线 周期 完成 ， 一 个 周期 用 来 取 指令 ， 另 一 个 周期 用 来 取 数 据 。 


每 个 总 线 周期 为 10 纳 秒 ， 这 样 ， 每 条 指令 的 执行 时 间 为 20 纳 秒 ( 即 内 部 处 理 时 间 和 忽略 不 
计 )。 该 计算 机 的 硬盘 上 每 道 有 2048 个 512 字 节 的 扇 区 ， 硬 盘旋 转 一 周 的 时 间 为 5 毫秒 。 
如 果 每 次 32 位 的 DMA 传送 需要 一 个 总 线 周 期 ， 请 计算 在 DMA 传送 中 计算 机 的 速度 降 
低 到 正常 速度 的 百分比 。 

通用 串 行 总 线 中 ， 一 个 同步 数据 包 中 的 最 大 有 效 载荷 是 1023 个 字 节 。 假 设 某 设备 每 帧 仅 
发 送 一 个 数据 包 ， 那 么 ， 单 个 同步 设备 的 最 大 带宽 是 多 少 ? 


. 给 图 3-60b 中 选择 并 行 输入 /输出 接口 的 与 非 门 增加 一 个 连接 A13 的 输入 信号 会 产生 什么 


影响 ? 

写 一 个 程序 ， 模 拟 一 个 由 两 输入 与 非 门 组 成 的 严 x 天 的 矩阵 。 该 电路 封装 在 一 片 芯片 内 ， 
有 7 个 输入 管 脚 和 大 个 输出 管 脚 。 六 k m 和 的 值 可 以 在 程序 编译 时 给 定 。 程 序 首先 读 
人 一 个 “接线 表 ”， 每 根 接线 都 有 自己 的 一 个 输入 和 一 个 输出 。 其 中 ， 接 线 的 输入 可 以 是 j 
个 输入 管 脚 中 的 一 个 ， 也 可 以 是 某 个 与 非 门 的 输出 ; 接线 的 输出 可 以 是 个 输出 管 脚 之 一 ， 
也 可 以 是 连接 到 某 个 与 非 门 的 输入 。 没 有 用 到 的 输入 都 指定 为 逻辑 1。 读 人 接线 表 后 ， 程 
序 将 分 别 输出 芯片 可 能 的 慰 种 输入 情况 对 应 的 输出 值 。 在 由 客户 定制 的 电路 中 ， 类 似 的 
芯片 已 得 到 广泛 应 用 ， 因 为 大 部 分 的 工作 〈 将门 阵列 布置 在 芯片 上 ) 和 要 实现 的 电路 无 
关 ， 只 需要 对 每 个 电路 设计 不 同 的 接线 。 


.用 你 熟悉 的 程序 语言 写 一 个 程序 ， 用 它 来 读 和 任意 的 两 个 布尔 表达 式 ， 并 比较 这 两 个 表达 


式 是 否 完 成 的 是 同一 个 功能 。 表 达 式 中 应 该 包含 表示 布尔 变量 的 单个 字母 ， 运 算 符 AND 
OR 和 NOT， 还 要 有 括号 。 每 个 表达 式 在 一 行 中 输入 。 程 序 通过 生成 两 个 布尔 表达 式 的 真 
值 表 ， 并 对 它们 进行 比较 来 得 出 结论 。 
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数字 逻辑 层 之 上 是 微 体 系 结构 层 ( microarchitecture level )。 微 体系 结构 层 的 作用 是 实现 
位 于 其 上 的 指令 系统 层 (ISA )， 如 图 1-2 所 示 。 微 体系 结构 层 的 设计 是 由 其 实现 的 指令 系统 
层 决 定 的 ， 当 然 计 算 机 的 价格 和 性 能 也 是 需要 考虑 的 因素 。 许 多 现代 计算 机 ， 特 别 是 RISC 
设计 中 的 指令 系统 层 ， 其 指令 都 很 简单 ， 可 以 在 单个 时 钟 周期 内 执行 。 复 杂 一 些 的 指令 系统 
层 ， 例 如 Core i7 指令 集 ， 执 行 一 条 指令 可 能 需要 多 个 时 钟 周期 。 执 行 指令 的 过 程 可 能 包括 
在 内 存 中 寻 址 操作 数 ， 读 和 人 操作 数 并 把 结果 存 回 内存 。 当 执行 一 条 指令 需要 多 个 操作 步骤 时 ， 
其 控制 方式 就 和 简单 的 指令 系统 层 不 同 了 。 


4.1 微 体 系 结构 举例 


在 理想 情况 下 ， 我 们 更 愿意 通过 介绍 微 体 系 结构 层 设 计 的 一 般 原 理 来 说 明 微 体系 结构 层 。 
然而 很 不 幸 ， 微 体系 结构 层 中 不 存在 一 般 性 的 原理 ， 几 乎 每 种 设计 都 是 一 个 特例 。 因 此 ， 我 们 就 
只 能 讨论 详细 的 例子 。 我 们 将 使 用 Java 虚拟 机 (Java Virtual Machine, JVM ) 指令 系统 层 的 子 集 
作为 指令 系统 层 的 例子 。 这 个 子 集 只 包括 整数 指令 ， 因 此 我 们 把 它 命 名 为 JVM， 以 强调 这 一 点 。 

下 面 我 们 就 开始 讨论 VM 赖 以 实现 的 微 体 系 结构 层 的 设计 。IJVM 中 有 些 相当 复杂 的 指 
。 正 如 第 1 章 中 所 说 ,许多 这 样 的 体系 结构 都 使 用 微 程序 来 实现 。 虽 然 IJVM 很 小 ,但 是 
很 适 于 描述 指令 的 控制 和 流程 。 

我 们 的 微 体系 结构 层 包 括 一 个 微 程序 ( 存放 在 ROM 中 )， 它 的 功能 是 取出 、 译 码 并 执行 
IJVM 指令 。 我 们 无 法 直接 使 用 Oracle 公司 的 JVM 解释 器 ， 因 为 我 们 需要 的 是 一 个 很 小 的 、 
能 够 真正 高 效 控制 硬件 中 的 门 电路 的 微 程序 ， 而 Oracle 的 JVM 解释 器 是 用 C 语言 编写 的 ， 
这 是 为 了 保证 可 移植 性 ， 而 且 它 也 不 能 在 底层 直接 控制 硬件 。 

我 们 这 里 讨论 的 硬件 只 用 到 了 第 3 章 中 讨论 的 基本 组 件 ， 因 此 从 理论 上 来 说 ， 读 者 在 完 
全 理解 了 本 章 的 内 容 之 后 ， 就 可 以 去 市 场 上 买 回 一 大 包 晶 体 管 ， 来 搭建 自己 的 JVM 机 了 。 能 
够 成 功 地 完成 这 项 工作 的 学 生 应 该 得 到 额外 的 奖励 (和 全 面 的 精神 检查 )。 

为 了 便于 理解 ， 我 们 可 以 把 微 体 系 结构 层 的 设计 看 成 是 编写 一 个 程序 ， 指 令 系 统 层 的 每 
条 指令 都 是 一 个 由 主 程序 调用 的 函数 。 在 这 种 模式 中 ， 主 程序 是 一 个 简单 的 无 限 循环 ， 它 决 
定 需要 调用 的 函数 ， 然 后 调用 该 函数 ， 循 环 往复 ， 其 工作 过 程 和 图 2-3 很 类 似 。 

微 程 序 中 有 一 组 变量 ， 称 为 计算 机 的 状态 (state )， 所 有 的 函数 都 可 以 访问 这 些 变量 。 每 
个 函数 都 会 改变 一 些 变量 来 设置 状态 。 例 如 ， 程 序 计 数 器 (Program Counter, PC) 就 是 状态 
的 一 部 分 。 它 指示 下 一 个 将 要 执行 的 函数 (也 就 是 ISA 指令 ) 的 内 存 位 置 。 在 每 条 指令 的 执 
行 过程 中 ，PC 都 指向 下 一 条 将 要 执行 的 指令 。 

IVM 的 指令 很 短 而 且 很 可 爱 。 指 令 的 字段 很 少 ， 通 常 只 有 一 个 或 者 两 个 ， 每 个 字段 都 有 
其 特殊 的 用 途 。 每 条 指令 的 第 一 个 字段 是 操作 码 (opcode，operation code 的 缩写 )， 它 是 指令 的 
标识 ， 用 于 表明 该 指令 是 ADD 指令 还 是 BRANCH 指令 或 者 其 他 指令 。 许 多 指令 还 有 一 个 定义 
操作 数 的 附件 字段 。 例 如 ,访问 局 部 变量 的 指令 需要 一 个 字段 来 指明 访问 哪 一 个 局 部 变量 。 
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这 种 执行 模型 ， 有 时 称 为 取 指 - 译 码 -执行 周期 ( fetch-decode-execute cycle )， 对 于 抽象 并 实 
现 类 似 于 UVM 的 有 复杂 指令 的 指令 系统 层 来 说 是 很 有 帮助 的 。 下 面 我 们 将 讨论 它 的 工作 原理 ， 
也 就 是 微 体 系 结构 层 的 组 成 ， 以 及 如 何 使 用 微 指 令 (microinstruction) 来 控制 它们 ， 每 条 微 指 令 控 
制 一 个 周期 的 数据 通路 。 微 指令 合 在 一 起 就 形成 了 微 程序 ， 下 面 我 们 将 详细 讨论 微 指令 和 微 程序 。 


4.1.1 数据 通路 


数据 通路 是 CPU 的 一 部 分 ， 包括 ALU 及 其 输入 和 输出 。 图 4-1 是 我 们 的 微 体 系 结构 实 
例 的 数据 通路 部 分 。 虽 然 它 是 针对 解释 VM 程序 精心 优化 的 ， 但 还 是 很 类 似 于 大 多 数 计算 
机 中 的 数据 通路 。 它 包括 一 些 32 位 的 寄存 器 ， 这 些 寄存 器 都 有 相应 的 符号 名 ， 比 如 PC、SP 
和 MDR。 尽 管 有 些 名 字 听 上 去 很 熟悉 ， 但 是 需要 指出 的 重要 一 点 是 这 些 寄 存 器 只 能 在 微 体系 
结构 层 使 用 ( 由 微 程 序 访问 )。 之 所 以 这 样 命名 ， 是 因为 它们 通常 用 来 存放 指令 系统 层 中 相应 
名 称 的 寄存 器 的 值 。 大 多 数 寄存 器 可 以 通过 B 总 线 传送 其 内 容 。ALU 的 输出 通过 移 位 器 传递 
到 C 总 线 上 ， 这 样 可 以 同时 把 ALU 的 输出 写 和 一 个 或 者 多 个 寄存 器 中 。 现 在 的 图 4-1 中 还 没 
有 A 总 线 ; 在 后 面 我 们 会 增加 它 。 






寄存 器 
与 内 存 
交互 
数据 
控制 信号 
个 使 能 B 总 线 
个 把 C 总 线 写 回 寄存 器 
CBR BEA 
ALU 控 制 


图 4-1 本 章 使 用 的 微 体系 结构 实例 中 的 数据 通路 


向 全 未 和 WE 2 


图 4-1 中 使 用 的 ALU 和 图 3-18、 图 3-19 中 的 完全 一 样 ， 其 功能 由 6 位 控制 信号 决定 。 
图 4-1 中 标号 为 “6” 的 短 斜 线 表示 了 这 6 位 ALU 控制 信号 。 它 们 分 别 是 决定 ALU 操作 的 
FO 和 Fl1, 输入 A FIB 的 使 能 信号 ENA 和 ENB， 转换 左 输入 的 INVA， 和 最 低位 的 进位 信号 
INC， 可 以 使 用 INC 给 结果 加 1。 当 然 ，ALU 控制 信和 号 的 64 种 组 合并 不 是 全 部 都 有 意义 。 

图 4-2 中 列 出 的 是 某 些 有 趣 的 组 合 。IJVM 并 不 需要 图 中 的 全 部 功能 ， 但 是 对 于 功能 完 
整 的 JVM 来 说 ， 它 们 都 是 有 用 的 。 在 许多 情况 下 ， 可 以 有 多 种 方法 来 得 到 同样 的 结果 。 在 
图 4-2 中 ，+ 表示 算术 加 ，- 表示 算术 减 ， 例 如 -A 就 是 A 的 二 进 制 补 码 表示 。 





图 4-2 有 用 的 ALU 信和 号 组 合 及 其 相应 的 功能 


图 4-1 中 的 ALU 需要 两 个 数据 输入 : 左 输 入 (A) MARWA (B )。 和 左 输入 相连 的 是 寄 
存 器 H。 右 输入 和 B 总 线 直 接 相 连 ， 这 样 右 输 入 就 可 以 有 9 个 来 源 ， 在 图 4-1 中 用 灰色 箭头 
表示 。 当 然 也 可 以 出 于 其 他 的 考虑 使 两 个 输入 都 和 总 线 相 连 ， 本 章 后 面 将 会 讨论 这 种 设计 。 

设置 囊 的 初始 值 可 以 通过 选择 ALU 的 功能 使 ALU 把 右 输入 (来 自 B 总线 ) 传递 到 
ALU 输出 端 。 可 以 通过 右 输入 加 0 来 实现 这 样 的 功能 ， 这 时 ENA 信号 无 效 ， 这 是 为 了 使 左 
输入 为 0。B 总 线 的 值 加 0 当然 还 等 于 B 总 线 的 值 。 运 算 结果 可 以 通过 移 位 器 不 加 修改 地 存 
À Ho 

除了 上 面 的 功能 之 外 ， 还 可 以 独立 使 用 两 根 其 他 的 控制 线 来 控制 ALU 的 输出 。SLL8 
(Shift Left Logical ) 把 移 位 器 的 内 容 左 移 一 个 字 节 ， 低 8 位 有 效 位 填 0。SRAI1 (Shift Right 
Arithmetic ) 把 移 位 器 的 内 容 右 移 1 位 ， 保 持 最 高 位 的 符号 位 不 变 。 

很 显然 ， 可 以 在 一 个 周期 内 读 写 相同 的 寄存 器 。 例如， 可 以 把 SP 放 到 B MAL, 禁止 
ALU 的 左 输入 ， 使 能 INC 信和 号， 然后 把 结果 存 回 SP， 这 就 实现 了 SP 加 1 (如 图 4-2 中 的 第 
8 行 所 示 )。 那 么 是 如 何 实现 在 一 个 周期 内 读 写 寄 存 器 而 又 不 出 现 错误 的 呢 ? 答案 在 于 读 和 写 
是 在 同一 个 周期 的 不 同时 刻 执 行 的 。 当 选择 了 某 个 寄存 器 作为 ALU 的 右 输入 时 ， 它 的 值 在 周 
期 一 开始 就 被 放 在 了 B 总 线 上 ， 而 且 在 整个 周期 中 都 保持 在 B 总 线 上 。 然 后 ALU 执行 运算 ， 
产生 结果 并 把 结果 通过 移 位 器 放 到 C 总 线 上 。 在 该 周期 快要 结束 时 ，ALU 和 移 位 器 的 输出 稳 
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定 以 后 ， 时 钟 信号 将 会 触发 寄存 器 写 操作 ， 把 C 总 线 的 内 容 保 存 到 一 个 或 者 多 个 寄存 器 中 。 
这 些 寄 存 器 也 可 以 包括 为 B 总 线 提供 输入 数据 的 寄存 器 。 数 据 通 路 的 精确 的 时 序 可 以 保证 在 
一 个 周期 内 读 写 同一 个 寄存 器 ， 请 继续 看 下 面 的 描述 。 

1. 数据 通路 时 序 

这 些 事件 的 时 序 关 系 如 图 4-3 所 示 。 在 每 个 时 钟 周期 的 开始 处 是 一 个 短 脉冲 。 它 可 以 由 
计算 机 的 主 振 时 钟 得 到 ， 参 见 图 3-20c。 在 该 脉冲 的 下 降 沿 处 ， 驱 动 各 个 门 电路 的 信号 开始 建 
立 。 其 有 限 的 建立 时 间 是 已 知 的 ， 记 为 Aw。 然 后 ，B 总 线 需要 的 寄存 器 被 选中 并 开始 驱动 
B 总 线 。 从 开始 驱动 总 线 到 数据 值 稳定 需要 Ax 时 间 。 然 后 ALU 和 移 位 器 ， 作 为 组 合 逻 辑 电 
路 ， 会 一 直 对 这 些 数据 进行 运算 ， 最 终 得 到 正确 的 结果 。 经 过 Ay 时 间 之 后 ，ALU 和 移 位 器 
的 输出 也 稳定 了 。 再 经 过 Az 之 后 ， 结 果 将 沿 着 C 总 线 传送 到 寄存 器 ， 在 下 一 个 脉冲 的 上 升 
沿 处 加 载 至 寄存 器 。 加 载 过 程 必须 是 边沿 触发 而 且 速 度 要 快 ， 这 样 才能 保证 即使 输入 寄存 器 
的 值 有 变化 ， 也 不 会 影响 到 C 总 线 。 与 此 同时 ， 在 脉冲 的 上 升 沿 处 ， 驱 动 B 总 线 的 寄存 器 停 
止 输出 ， 以 便 为 下 一 个 周期 做 准备 。 后 面 将 会 简单 讨论 图 4-3 中 出 现 的 MPC. MIR 和 内 存 。 


移 位 器 主 时 钟 上 升 沿 ，C 总 线 
输出 稳定 和 内 存 的 值 存 入 寄存 器 


时 钟 周期 1 十 时 钉 周 期 2 一 一 一 | 


从 这 里 












此 时 新 的 MPC 用 于 加 载 
下 一 条 微 指 令 的 MIR 






SS eae 


| 此 时 MPC 
建立 信号 驱 ALU 
可 用 
动 数据 通路 和 
移 位 器 


驱动 H 和 B 从 移 位 器 到 
总 线 寄存 器 的 时 延 


图 4-3 数据 通路 周期 的 时 序 图 


理解 下 面 这 一 点 很 重要 : 即使 数据 通路 中 没有 使 用 存储 部 件 ， 但 通过 数据 通路 仍然 需要 
一 定 的 传送 时 间 。 改 变 B 总 线 的 值 并 不 会 使 C 总 线 立 刻 发 生 改 变 ， 改 变 只 有 经 过 一 段 时 间 之 
后 才 会 发 生 《〈 这 是 因为 每 一 步 都 有 延迟 )。 因 此 ， 即 使 计算 的 结果 改变 了 输入 寄存 器 的 值 ， 也 
可 以 在 该 值 通过 B 总 线 (RAH) 到 达 ALU 之 前 ， 安 全 地 将 它 保 存 到 寄存 器 中 。 

使 这 种 设计 正常 工作 需要 严格 的 时 序 ， 较 长 的 时 钟 周期 ， 知 晓 通 过 ALU 的 最 短 传输 时 
E, mE C 总 线 上 的 寄存 器 必须 能 够 快速 地 装 人 。 经 过 仔细 地 设计 ， 数 据 通路 完全 可 以 正确 
工作 。 实 际 的 机 器 也 正 是 这 人 么 工作 的 。 

男 一 种 观察 数据 通路 周期 的 方法 是 把 它 分 成 隐 含 的 子 周 期 。 子 周期 1 的 起 点 是 时 钟 的 下 
降 沿 。 子 周期 内 的 动作 如 下 所 示 ， 括 号 中 是 子 周期 的 持续 时 间 。 

1) 控制 信号 建立 (Aw) 

2) 寄存 器 的 内 容 加 载 到 B 总 线 (Ax) 

3 ) ALU 和 移 位 器 开始 运算 ( Ay). 

4) 运算 结果 沿 着 C 总 线 传送 到 寄存 器 ( Az), 
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Az 之 后 的 时 间 片 为 系统 误差 预 留 了 空间 ， 因 为 时 序 不 太 可 能 那么 精确 。 在 下 一 个 时 钟 
周期 的 上 升 沿 ， 结 果 被 存 人 寄存 器 。 

最 好 把 子 周 期 看 成 是 隐 含 的 ， 因 为 在 子 周 期 中 没有 时 钟 脉冲 和 其 他 明确 的 信和 号 通知 ALU 
执行 运算 或 者 通知 ALU 把 结果 放 入 C 总 线 。 实 际 上 ，ALU 和 移 位 器 总 是 处 于 工作 状态 ， 但 
是 ， 在 时 钟 下 降 沿 之 后 的 Aw+ Ax 时 间 之 内 ，ALU 的 输入 是 无 意义 的 。 与 此 类 似 ， 在 时 钟 下 
降 沿 之 后 的 Aw+Ax+Ay 时 间 之 内 ，ALU 和 移 位 器 的 输出 是 无 意义 的 。 驱 动 数据 通路 的 唯一 
明确 的 信和 号 就 是 时 钟 的 边沿 ， 下 降 沿 启动 数据 通路 周期 ， 上 升 沿 把 C 总 线 的 值 加 载 至 寄存 器 。 
其 他 子 周 期 的 边界 都 是 隐 含 的 ， 这 是 由 相关 电路 的 内 在 延迟 时 间 决 定 的 。 设 计 工 程 师 应 该 保 
证 ， 在 时 钟 的 上 升 沿 到 来 之 前 有 足够 Aw+Ax+Ay+Az 长 的 时 间 ， 使 寄存 器 值 的 加 载 工作 总 
是 能 可 靠 地 完成 。 

2. 内 存 操作 

我 们 的 CPU 可 以 用 两 种 不 同 的 方式 和 内 存 通信 : 32 位 按 字 寻 址 的 内 存 端 口 和 8 位 的 按 
字 节 寻 址 的 内 存 端口 。32 位 端口 是 由 内 存 地 址 寄存 器 ( Memory Address Register, MAR) 和 
内 存 数据 寄存 器 ( Memory Data Register，MDR ) 控制 的 ， 如 图 4-1 所 示 。8 位 端口 是 由 PC 
寄存 器 控制 的 ， 它 把 一 个 字 节 读 和 人 MBR 的 低 8 位 。 这 个 端口 只 能 从 内 存 中 读 取 数据 而 不 能 
向 内 存 中 写 数据 。 

这 些 寄存 器 (和 图 4-1 中 的 所 有 其 他 的 寄存 器 ) 都 是 由 一 位 或 者 两 位 控制 信号 驱动 的 。 
寄存 器 下 方 的 空心 箭头 表示 寄存 器 输出 到 B 总 线 的 输出 使 能 信号 。 由 于 MAR 不 和 B 总 线 相 
连 ， 因 此 它 没有 使 能 信号 。H 也 没有 使 能 信号 ， 因 为 它 是 唯一 的 ALU 左 输入 ， 它 可 以 总 是 处 
于 使 能 状态 。 

寄存 器 下 方 的 实心 箭头 表示 把 C 总 线 写 人 (也 就 是 打 入 ) 寄存 器 的 控制 信号 。 由 于 C 总 
线 不 加 载 MBR， 因 此 MBR 没有 写 信号 (但 是 MBR 仍然 有 两 个 使 能 信号 ， 下 面 将 会 介绍 它 
们 的 用 途 )。 为 了 启动 内 存 读 写 ， 必 须 首 先 把 数据 写 人 适当 的 内 存 寄 存 器 ， 然 后 才能 发 出 对 内 
存 的 读 写 信号 (没有 在 图 4-1 HEH )。 

MAR 中 是 字 地 址 ， 因 此 ， 其 值 0、1、2、…， 指 的 是 连续 的 字 。PC 中 是 字 节 地 址 ， 因 
此 其 值 0、1、2、…， 指 的 是 连续 的 字 节 。 因 此 ， 把 2 放 人 PC 然后 读 内 存 将 得 到 内 存 中 第 2 
个 字 节 的 值 ， 该 值 被 保存 在 MBR 的 低 8 位 中 。 而 把 2 BLA MAR 然后 读 内 存 ， 结 果 将 是 把 字 
节 8 ~ 11 (也 就 是 第 2 个 字 ) FEA MDR。 

这 两 者 之 间 的 区 别 是 由 它们 的 功能 决定 的 ，MAR 和 PC 访问 的 是 不 同 的 内 存 区 域 。 后 面 
读者 将 看 到 这 种 区 别 的 必要 性 。 现 在 能 说 明 的 是 ，MAR/MDR 用 于 读 写 指令 系统 层 的 数据 字 ， [249 
而 PC/MBR 则 用 于 读 指令 系统 层 的 可 执行 程序 ， 其 中 可 执行 程序 是 由 字 节 组 成 的 。 其 他 的 所 
有 存放 地 址 的 寄存 器 都 和 MAR 一 样 ， 使 用 字 地 址 。 

而 在 实际 的 物理 实现 中 ， 只 有 一 个 实际 的 内 存 ， 而 且 该 内 存 是 面向 字 节 的 。 虽 然 物理 
内 存 是 按照 字 节 计数 的 ， 但 是 我 们 可 以 采用 一 个 简单 的 方案 使 MAR 以 字 为 单位 计数 ( 这 是 
JVM 的 定义 所 要 求 的 )。 当 把 MAR 的 内 容 放 到 地 址 总 线 上 时 ， 并 不 直接 把 它 的 32 位 内 容 映 
射 到 地 址 总 线 0 ~ 31 上 。 而 是 把 MAR 的 第 0 位 写 到 地 址 总 线 2 E, 第 1 位 写 到 地 址 总 线 3 
上 ， 依 此 类 推 。MAR 的 最 高 两 位 被 抛弃 ， 因 为 只 有 当 字 地 址 大 于 2° 时 才 需 要 这 两 位 ， 而 在 
4GB 内 存 的 计算 机 上 这 样 的 地 址 是 没有 意义 的 。 使 用 这 种 映射 方式 时 ， 如果 MAR 是 1， 地 
址 总 线 上 出 现 的 是 4; MAR 是 2， 地 址 总 线 上 出 现 的 是 8， 依 此 类 推 。 这 种 映射 方式 如 图 4-4 
所 示 。 
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32 位 地 址 总 线 〈 按 字 节 计数 ) 
图 4-4 MAR 中 位 到 地 址 总 线 的 映射 


上 面 曾经 提 到 ， 从 8 位 的 内 存 端 口 读 到 的 内 存 数 据 存放 在 8 位 寄存 器 MBR 中 。 可 以 用 
两 种 方式 把 MBR 的 值 放 到 ( 即 复 制 ) BARE: 无 符号 的 和 带 符号 的 。 当 需要 无 符号 值 的 时 
候 ， 把 MBR 的 值 放 到 B 总 线 的 低 8 位 ， 高 24 位 则 是 0。 无 符号 值 常 用 于 索引 一 张 表 ， 或 者 
用 于 把 指令 流 中 的 两 个 连续 的 无 符号 字 节 组 合成 16 位 整数 。 

把 8 位 MBR 转换 成 32 位 字 的 另 一 种 方式 是 把 它 看 作 -128 和 +127 之 间 的 值 ， 然 后 在 保 
持 值 不 变 的 情况 下 把 它 扩 展 到 32 位 。 具 体 的 转换 方式 是 把 MBR 的 符号 位 (最 左边 的 位 ) 扩 
EZB 总 线 的 高 24 位 ， 这 种 方式 称 为 符号 扩展 (sign extension )。 使 用 这 种 方式 时 ， 如 果 8 
位 的 MBR 的 最 高 位 是 1， 则 高 24 位 全 是 1， 如 果 MBR 的 最 高 位 是 0， 则 高 24 位 全 是 0。 

8 位 MBR 转换 成 B 总 线 上 无 符号 还 是 带 符号 的 32 位 值 是 由 两 个 控制 信号 (图 4-1 P 
MBR 下 方 的 空心 箭头 ) 决定 的 ， 这 就 是 这 两 个 箭头 的 作用 。 图 中 的 MBR 左面 的 虚 框 表示 8 
位 的 MBR 可 以 作为 B 总 线 的 32 位 数据 源 。 
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为 了 控制 图 4-1 中 的 数据 通路 ， 我 们 需要 29 个 控制 信和 导 。 这 些 信 和 号 可 以 分 成 5 个 功能 
组 ， 如 下 所 示 。 

9 个 用 于 将 来 自 C 总 线 的 数据 写 人 寄存 器 的 控制 信号 。 

9 个 输出 到 B 总 线 (ALU 输入 ) 的 寄存 器 的 使 能 信号。 

8 个 控制 ALU 和 移 位 器 功能 的 信和 号 。 

2 个 通过 MAR/MDR 指示 内 存 读 写 的 信号 (图 中 没有 画 出 )。 

1 个 通过 PC/MBR 指示 内 存 取 数 的 信和 号 ( 图 中 没有 画 出 )。 

这 29 个 控制 信号 的 值 定义 了 数据 通路 中 一 个 周期 的 操作 。 一 个 周期 包括 把 寄存 器 值 放 到 
B 总 线 上 ， 通 过 ALU 和 移 位 器 传送 数据 ， 把 数据 发 送 到 C 总 线 上 ， 最 后 把 结果 写 入 合适 的 寄 
存 器 (可 能 是 多 个 ) 中 。 另 外 ， 如 果 有 内 存 读 信号 ， 那 么 在 数据 通路 周期 结束 时 会 启动 内 存 读 
操作 ， 在 这 之 前 MAR 应 该 已 经 有 值 。 下 一 个 周期 时 内 存 的 值 就 可 以 读 人 MBR 和 MDR 了 ， 再 
下 一 个 周期 就 可 以 使 用 这 些 值 了 。 换 名 话说， 在 周期 磊 结束 时 启动 的 内 存 读 (8 位 端口 或 者 32 - 
位 端口 ) 操作 在 第 k+l1 个 周期 得 不 到 数值 ， 而 只 能 在 kt2 或 者 更 后 面 的 周期 中 才能 得 到 数据 。 

图 4-3 解释 了 这 种 看 起 来 似乎 违反 直觉 的 行为 。 在 时 钟 周 期 1 时 ， 直 到 时 钟 的 上 升 沿 之 
后 ， 也 就 是 MAR 和 PC 值 被 加 载 之 后 才能 产生 内 存 控制 信号 ， 这 时 差不多 是 在 时 钟 周期 1 的 
末尾 。 我 们 假定 内 存 可 以 在 一 个 周期 之 内 把 结果 放 在 内 存 总 线 上 ， 这 样 MBR 或 者 MDR 就 可 
以 在 下 一 个 时 钟 的 上 升 沿 加 载 内 存 值 ， 其 他 的 寄存 器 也 同样 可 以 在 这 时 加 载 值 。 

换 名 话说， 我 们 可 以 在 数据 通路 周期 的 最 后 加 载 MAR， 然 后 启动 内 存 读 操作 。 因 此 , 我 
们 不 能 指望 在 下 一 个 周期 的 开始 就 在 MDR 中 得 到 内 存 的 值 ， 尤 其 是 当时 钟 脉冲 的 宽度 比较 
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须 插入 一 个 数据 通路 周期 。 当 然 ， 这 个 周期 可 以 执行 其 他 的 操作 ， 只 要 不 使 用 内 存 就 可 以 了 。 

假定 内 存 访问 只 需要 一 个 周期 就 相当 于 假定 高 速 缓存 命中 率 是 100%。 这 样 的 假定 不 可 能 
永远 成 立 ,但 是 如 果 考 虑 变 长 的 内 存 访问 周期 设计 将 变 得 很 复杂 ， 这 里 就 不 讨论 了 。 

H F MBR 及 MDR 和 其 他 的 寄存 器 一 样 ， 是 在 上 升 沿 加 载 数据 ， 因 此 当 正 在 执行 新 的 内 
存 读 操作 时 ， 它 们 可 能 会 被 访问 。 这 时 它们 返回 的 是 原 有 的 值 ， 因 为 内 存 读 操作 还 没有 来 得 
及 覆 写 它们 。 这 里 并 不 存在 二 义 性 : 在 新 的 值 没有 被 时 钟 的 上 升 沿 加 载 至 MBR 和 MDR 之 前 ， 
原 有 的 值 仍 然 是 可 用 的 。 我 们 注意 到 ， 可 以 在 两 个 连续 的 周期 内 执行 连续 的 读 ， 因 为 读 操 作 
只 需要 一 个 周期 。 另 外 ， 内 存 可 以 同时 进行 多 个 操作 。 当 然 ， 如 果 同 时 对 内 存 的 同一 个 字 节 
执行 读 和 写 将 得 到 不 确定 的 结果 。 

虽然 我 们 需要 把 C 总 线 的 输入 同时 写 人 多 个 寄存 器 中 ， 但 是 我 们 肯定 不 需要 同时 使 能 B 
总 线 的 输入 寄存 器 。( 实际 上 ， 在 某 些 实际 的 实现 中 ， 如 果 这 样 做 可 能 会 损坏 硬件 。) 只 需要 
稍微 增加 一 些 电 路 ， 我 们 就 可 以 减少 选择 B 总 线 的 输入 寄存 器 的 控制 信号 的 数量 。 一 共 只 有 
9 个 输入 寄存 器 可 以 驱动 B 总 线 (无 符号 的 和 带 符号 的 MBR 分 别 作为 两 个 寄存 器 )。 因 此 ， 
我 们 可 以 把 B 总 线 的 控制 信息 编码 为 4 位 ， 使 用 译 码 器 来 产生 16 个 控制 信号 ， 其 中 9 个 是 有 
用 的 ,7 个 是 没有 用 到 的 。 如 果 是 在 设计 商用 产品 ， 设 计 者 可 能 会 绞 尽 脑汁 减少 一 个 寄存 器 
以 便 能 使 用 3 位 对 这 些 寄存 器 编码 。 而 我 们 的 例子 是 为 了 学 术 研 究 ， 因 此 我 们 可 以 奢侈 一 些 ， 
多 用 一 位 使 整个 设计 变 得 清晰 和 简单 。 

现在 我 们 可 以 用 9+4+8+2+1 = 24 个 控制 信号 来 控制 数据 通路 ， 也 就 是 24 位 。 但 是 ， 这 24 
位 只 控制 了 一 个 周期 的 数据 通路 。 控 制 信号 的 第 二 部 分 需要 决定 下 一 个 周期 的 操作 。 为 了 在 我 
们 设计 的 控制 器 中 包括 这 一 部 分 功能 ， 我 们 设计 了 一 种 描述 将 要 执行 的 操作 的 格式 ， 该 格式 中 
包括 24 位 的 控制 信号 和 2 个 附加 的 字段 : NEXT_ ADDRESS 和 JAM。 这 些 字 段 的 内 容 下 面 将 会 
讨论 。 图 4-5 中 是 一 种 可 能 的 格式 ， 一 共有 6 组 (组 名 在 指令 的 下 面 )， 包括 下 面 的 36 位 信和 号: 

Addr; 下 一 条 可 能 执行 的 微 指令 的 地 址 。 

JAM: 决定 如 何 选择 下 一 条 微 指令 。 

ALU: ALU 和 移 位 器 的 操作 。 

C: 选择 C 总 线 的 数据 将 要 写 人 的 寄存 器 。 

Mem: 内 存 操作 。 

B: 选择 B 总 线 的 数据 来 源 ， 采 用 了 编码 方式 。 








3=MBRU 8=OPC 
4=SP 9~15 (无 ) 


图 4-5 Mic-1 的 微 指 令 格式 
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从 原理 上 来 说 ， 组 的 排列 次 序 可 以 是 任意 的 ， 但 是 我 们 可 以 精心 选择 一 种 排列 使 线 之 间 
的 交叉 达到 最 少 ， 如 图 4-6 所 示 。 类 似 于 图 4-6 这 样 的 原理 图 中 的 线 交叉 往往 对 应 着 芯片 中 的 
线 交 叉 ， 这 会 增加 二 维 设 计 中 布线 的 难度 ， 因 此 应 该 使 线 交 叉 的 出 现 达到 最 少 。 


内 存 控制 信号 (rd, wr, fetch) 









用 于 保存 微 程序 
的 512x36 位 的 
控制 存储 





ALU 
控制 
































图 4-6 我 们 的 实例 微 体系 结构 Mic-1 的 完整 框图 


4.1.3 SHH: Mic-1 


上 面 我 们 已 经 讨论 了 数据 通路 的 控制 方式 ， 但 是 我 们 还 不 知道 如 何 决定 在 每 个 周期 中 该 
使 能 哪些 信号 。 定 序 器 (sequencer) 就 是 负责 按 步骤 执行 一 条 ISA 指令 的 部 件 。 

在 每 个 周期 中 ， 定 序 器 必须 生成 下 面 这 两 类 信息 : 

1 ) 系统 中 每 个 控制 信号 的 状态 。 

2) 下 一 条 要 执行 的 微 指 令 地 址 。 

图 4-6 是 我 们 的 实例 CPU 中 完整 的 微 体 系 结构 的 详细 框图 ， 我 们 将 其 称 为 Mic-1。 这 张 
图 乍 看 有 点 吓人 ,但 是 它 的 确 值得 认真 研究 。 当 你 完全 理解 了 图 4-6 中 的 每 个 框 和 每 条 线 之 
后 ,你 才 可 以 算是 真正 开始 懂得 微 体系 结构 层 。 整 个 框图 由 两 部 分 组 成 : 左面 是 数据 通路 ， 
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前 面 我 们 已 经 详细 讨论 过 了 ， 右 面 是 控制 部 分 。 下 面 我 们 就 来 讨论 控制 部 分 。 

Mic-1 的 控制 部 分 中 最 大 和 最 重要 的 一 项 是 控制 存储 器 (control store )。 你 可 以 把 控制 存 
储 器 理解 为 存放 全 部 微 程序 的 内 存 ， 虽 然 有 时 它 是 用 一 组 逻辑 门 实现 的 。 我 们 把 它 称 为 控制 
存储 器 是 为 了 避免 和 通过 MBR 和 MDR 访问 的 主 存 混 淆 。 当 然 ， 从 功能 上 来 说 ， 控 制 存 储 器 
也 是 内 存 ， 只 不 过 它 保存 的 是 微 指令 而 不 是 ISA 指令 。 在 我 们 的 实例 CPU 中 ， 控 制 存 储 器 包 
括 512 个 字 ， 每 个 字 是 一 条 36 位 的 微 指令 (格式 如 图 4-5 所 示 )。 实 际 上 ， 我们 并 不 需要 这 
么 多 个 微 指 令 字 ,但 是 我 们 需要 512 个 不 同 的 微 指 令 地 址 ， 后 面 将 会 解释 原因 。 

控制 存储 器 和 主 存 的 一 个 重要 的 区 别 在 于 : 主 存 中 的 指令 是 按照 其 地 址 顺序 执行 的 ( 除 
非 遇 到 跳 转 指令 ) ; 而 微 指令 则 不 是 这 样 。 图 2-3 中 对 程序 计数 器 进行 加 1 表示 在 当前 指令 之 
后 默认 执行 内 存 中 的 下 一 条 指令 。 微 程序 则 需要 更 大 的 灵活 性 ( 因为 微 指令 序列 一 般 比 较 短 )， 
因此 它们 一 般 没 有 这 种 顺序 执行 的 特性 。 相 反 ， 每 条 微 指令 都 明确 指出 它 的 下 一 条 微 指 令 。 

由 于 控制 存储 器 从 功能 上 来 说 是 一 个 ( 只 读 的 ) 存储 器 ， 因 此 它 也 需要 自己 的 内 存 地 
址 寄存 器 和 内 存 数据 寄存 器 。 它 不 需要 读 写 信号 ， 因 为 它 总 是 在 读 。 我 们 把 控制 存储 器 的 
内 存 地 址 寄存 嚣 称 为 微 程 序 计数 器 (MicroProgram Counter，MPC )。 这 个 名 称 有 点 名 不 副 
实 ， 因 为 微 程 序 实际 上 并 没有 什么 次 序 ， 因 此 并 不 符合 计数 器 的 概念 (但 是 我 们 依据 惯例 仍 
然 称 为 计数 器 )。 控 制 存储 器 的 内 存 数据 寄存 器 称 为 微 指令 寄存 器 (MicroInstruction Register, 
MIR )。 它 的 功能 是 保存 当前 的 微 指 令 ， 这 条 微 指 令 将 驱动 控制 信号 来 操作 数据 通路 。 

图 4-6 中 的 MIR 寄存 器 保存 的 是 和 图 4-5 相 同 的 6 组 信号 。Addr 信号 组 和 械 ( 用 于 
JAM ) 信和 号 组 控制 下 一 个 微 指令 地 址 的 选择 ， 后 面 还 将 讨论 这 两 组 信号 。ALU 信和 号 组 包括 8 
位 选择 ALU 功能 和 驱动 移 位 器 的 信号 。C 组 信和 号 选择 寄存 器 从 C 总 线 接收 ALU 的 输出 。M 
组 信号 控制 内 存 操作 。 

最 后 4 位 驱动 译 码 器 ， 译 码 之 后 决定 哪个 寄存 器 驱动 B 总 线 。 这 里 我 们 选择 使 用 标准 的 
4-16 译 码 器 ， 虽 然 只 用 到 了 其 中 9 种 译 码 结果 。 在 更 精细 的 设计 中 ， 应 该 使 用 4-9 译 码 器 。 
这 里 我 们 采用 了 器 件 库 中 的 标准 器 件 而 不 用 设计 定制 的 电路 。 使 用 标准 器 件 使 设计 更 简单 而 
且 不 会 产生 错误 。 如 果 你 自己 设计 电路 ， 可 能 会 节省 芯片 面积 ， 但 是 需要 更 长 的 时 间 而 且 还 
可 能 犯错 误 。 

图 4-6 中 的 操作 如 下 。 在 每 个 时 钟 周 期 开始 时 ( 图 4-3 中 的 时 钟 的 下 降 沿 )， 从 MPC 所 
指 的 控制 存储 器 位 置 读 出 微 指 令 加 载 至 MIR。 图 4-6 中 ，MIR 的 加 载 时 间 是 Aw。 从 子 周期 
的 角度 来 看 ，MIR 是 在 第 一 个 子 周期 中 加 载 至 微 指令 的 。 

一 旦 微 指令 在 MIR 中 建立 ， 各 个 不 同 信号 就 开始 在 数据 通路 中 传送 了 。 某 个 寄存 器 把 值 
BOE B ARE, ALU 知道 该 执行 什么 运算 ， 这 一 步 要 做 大 量 的 工作 。 这 是 第 二 个 子 周 期 。 从 
周期 的 起 点 开始 ，A w+Ax 时 间 之 后 ，ALU 的 输入 就 稳定 了 。 

再 经 过 Ay 时 间 ， 所 有 的 东西 都 准备 好 了 ，ALU、N、Z， 以 及 移 位 器 的 输出 都 稳定 了 。 
N 和 2Z 的 值 保 存在 两 个 1 位 的 触发 器 中 。 这 两 位 和 C 总 线 写 入 寄存 器 以 及 内 存 数据 写 人 寄存 
器 一 样 ， 是 时 钟 的 上 升 沿 也 就 是 在 数据 通路 周期 快要 结束 时 触发 的 。ALU 的 输出 并 不 锁 存 而 
是 直接 输入 移 位 器 。ALU 和 移 位 器 的 操作 发 生 在 子 周 期 3。 

经 过 另 一 个 额外 的 时 间 Az， 移 位 器 的 输出 通过 C 总 线 到 达 寄 存 器 。 因 此 ， 寄 存 器 可 以 
在 周期 快要 结束 时 加 载 数据 (在 图 4-3 中 时 钟 脉 冲 的 上 升 沿 处 )。 在 子 周期 4 中 ， 寄 存 器 和 
N, Z 触发 器 加 载 值 。 再 经 过 一 段 时 间 ， 所 有 的 结果 都 被 保存 下 来 而 且 前 一 次 内 存 操作 的 结果 
也 到 达 了 ， 与 此 同时 ，MPC 被 再 次 加 载 。 这 个 过 程 将 一 直 持 续 下 去 ， 直 到 某 个 人 感到 厌烦 了 


182 RAF 


把 计算 机 关 掉 为 止 。 

在 驱动 数据 通路 的 同时 ， 微 程序 还 要 决定 下 一 条 执行 的 微 指令 ， 因 为 微 指令 并 不 按照 控 
制 存 储 器 中 的 顺序 执行 。 下 一 条 微 指 令 地 址 的 计算 从 MIR 加 载 并 稳定 之 后 就 开始 了 。 首 先 ， 
把 9 位 的 NEXT ADDRESS 字段 拷贝 到 MPC 中 。 在 拷贝 的 同时 ， 检 查 JAM 字段 。 如 果 值 是 
000， 则 什么 也 不 做 ; “4 NEXT_ADDRESS 拷贝 完成 后 ，MPC 将 指向 下 一 条 微 指 令 。 

如 果 JAM 中 的 某 个 或 者 多 个 位 是 1， 就 需要 做 一 些 工作 了 。 如 果 JAMN 被 置 1, 则 1 位 
的 N 触发 器 将 和 MPC 最 高 位 执行 或 COR) 操作。 类似 地 ， 如 果 JAMZ 是 1， 则 1 位 的 Z 触 
发 器 和 MPC 最 高 位 执行 或 操作 。 如 果 这 两 位 都 是 1， 那么 就 把 它们 都 或 起 来 。 使 用 N A Z fh 
发 器 是 因为 在 时 钟 的 上 升 沿 之 后 (这 时 时 钟 处 于 高 电 平 )，B 总 线 不 再 被 驱动 了 ,这样 ALU 
的 输出 就 可 能 不 正确 了 。 把 ALU 的 状态 保存 在 N 和 Z 中 可 以 保证 计算 MPC 时 使 用 正确 而 且 
稳定 的 值 ， 而 不 用 考虑 ALU 将 会 执行 什么 操作 。 

在 图 4-6 中 ,执行 上 述 计算 的 逻辑 框 被 标记 为 “最 高 位 ”"”， 其 使 用 的 逻辑 表达 式 为 : 


F = (JAMZ AND Z) OR (JAMN AND N) OR NEXT_ADDRESS[8] 


我 们 可 以 注意 到 ， 无 论 是 哪 种 情况 ，MPC 的 值 都 只 能 是 下 面 两 个 值 之 一 : 
1) NEXT_ADDRESS 的 值 。 
2) 最 高 位 与 1 进行 或 操作 之 后 的 NEXT_ADDRESS 值 。 
除 此 之 外 ， 没 有 第 三 种 可 能 。 如 果 NEXT_ADDRESS 的 最 高 位 已 经 是 1， 那 么 使 用 
JAMN 和 JAMZ 就 没有 意义 了 。 
= WUER), WR JAM 值 是 全 0， 那 么 下 一 条 将 要 执行 的 微 指令 的 地 址 就 是 当前 微 指 
令 的 NEXT_ADDRESS 字段 中 的 9 位 数 。 如 果 JAMN 或 者 JAMZ 是 1， 那 么 下 一 条 微 指 
令 地 址 就 有 两 种 可 能 : NEXT_ADDRESS 和 NEXT ADDRESS OR 0x100 ( 假定 NEXT_ 
ADDRESS < 0xFF )， 如 图 4-7 所 示 。 前 缀 0x 表示 十 六 进 制 数 。 当 前 的 微 指 令 的 地 址 是 
0x75， 其 中 地 址 字段 NEXT_ADDRESS = 0x92 而 且 JAMZ 是 1。 因此 ， 下 一 条 微 指令 的 地 
址 就 依赖 于 前 一 次 ALU 操作 的 Z 状态 。 如 果 Z 位 是 0， 下 一 条 微 指 令 地 址 就 是 0x92。 如 果 Z 
位 是 1， 下 一 条 微 指令 地 址 就 是 0x192。 
地 址 Addr JAM 数据 通路 控制 位 
Ox75 0x92 001 | JAMZ 位 的 设置 


Ee Pr nae? iat tat fiha 


其 中 之 一 将 接 在 


图 4-7 JAMZ 设置 为 1 的 微 指 令 有 两 条 可 能 的 后 续 微 指令 








JAM 中 的 第 三 位 是 JMPC。 如 果 该 位 置 1， 那么 MBR 中 的 8 位 将 和 当前 微 指 令 的 
NEXT_ADDRESS 字段 的 低 8 位 按 位 进行 或 操作 。 计 算 结果 送 给 MPC。 图 4-6 中 标记 “0O” 
的 方 框 用 于 执行 这 一 功能 ， 当 JMPC 为 1 时 ,执行 MBR OR NEXT_ADDRESS 并 把 结果 送 给 
MPC， 如 果 JMPC 是 0， 则 直接 把 NEXT_ADDRESS 送 给 MPC。 当 JMPC 是 1 时 ,NEXT_ 
ADDRESS 的 低 8 位 一 般 是 0。 最 高 位 是 0 或 者 1， 因 此 使 用 JMPC Ht, NEXT ADDRESS 值 
一 般 是 0x000 或 者 0x100。 原 因 在 于 有 时 候 需 要 使 用 0x000， 有 了 时候 需 要 使 用 0x100， 这 一 点 
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后 面 还 会 讨论 。 

这 种 把 MBR 和 NEXT_ADDRESS 相 或 并 把 结果 存 人 MPC 的 能 力 可 以 用 于 有 效 地 实现 多 
路 跳 转 (jump). HF MBR 只 有 8 位， 因此 跳 转 的 最 大 范围 只 限于 256。 典 型 的 用 法 是 这 样 
的 , MBR 包含 一 个 操作 码 ， 这 样 使 用 IMPC 就 可 以 根据 操作 码 选择 下 一 条 将 要 执行 的 微 指令 。 
这 种 方式 可 以 用 于 快速 跳 转 到 刚刚 取 到 的 操作 码 对 应 的 微 程序 。 

理解 CPU 的 时 序 对 掌握 后 面 的 内 容 相 当 重 要 ， 值 得 我 们 再 重复 一 遍 。 我 们 按照 子 周 期 的 
概念 来 解释 ， 因 为 这 样 易 于 理解 ， 但 是 真正 的 时 钟 事件 是 时 钟 下 降 沿 ( 它 启 动 时 钟 周期 ) 和 
时 钟 的 上 升 沿 ， 在 时 钟 的 上 升 沿 执行 寄存 器 和 ON 触发 器 的 加 载 操作 。 请 再 参考 一 下 图 4-3。 

在 子 周 期 1 中 ， 从 时 钟 的 下 降 沿 开始 ， 从 MPC 所 指 的 地 址 处 读 出 微 指令 加 载 到 MIR。 
子 周 期 2 中 ，MIR 中 的 信号 开始 起 作用 ， 选 中 的 寄存 器 的 值 开 始 加 载 到 B 总 线 。 在 子 周 期 
3 中 ，ALU 和 移 位 器 开始 执行 运算 并 产生 稳定 的 结果 。 在 子 周 期 4 中 ，C 总 线 、 内 存 总 线 和 
ALU 的 值 变 得 稳定 。 在 时 钟 的 上 升 沿 ，C 总 线 的 值 加 载 至 寄存 器 ，N 和 ZZ 触发 器 被 加 载 ， 而 
且 前 一 个 数据 通路 周期 最 后 开始 的 内 存 操作 的 结果 也 将 写 人 MBR 和 MDR (如 果 有 内 存 操 
YE). ASE MBR 开始 有 效 ，MPC 就 被 加 载 以 准备 执行 下 一 条 微 指令 。 因 此 MPC 就 有 可 能 在 
时 钟 处 于 高 电 平 的 中 间 处 得 到 值 ， 当 然 肯定 是 在 MBR/MDR 值 已 经 准备 好 之 后 。 它 可 以 是 电 
平 触发 的 〈 而 不 是 边沿 触发 ), 或 者 是 在 时 钟 上 升 沿 后 的 一 个 固定 延 时 之 后 边沿 触发 。 当 然 ， 
MPC 需要 的 寄存 器 如 MBR、N 或 者 乙 准 备 好 之 前 ，MPC 不 可 能 得 到 值 。 只 要 时 钟 一 开始 下 
降 ，MPC 就 可 以 对 控制 存储 器 寻 址 ， 一 个 新 的 周期 就 开始 了 。 

值得 注意 的 是 每 个 周期 都 是 自 包含 的 。 它 定义 了 B 总 线 的 数据 来 源 ，ALU 和 移 位 器 的 操 
作 ，C 总 线 的 值 存储 的 位 置 ， 当 然 还 有 下 一 个 MPC 的 值 。 

关于 图 4-6 还 有 一 点 需要 说 明 。 我 们 前 面 假定 MPC 是 一 个 通常 意义 上 的 寄存 器 ， 有 9 位 
存储 能 力 ， 当 时 钟 是 高 电 平时 写 和 人。 而 实际 上 ， 这 里 并 不 需要 使 用 寄存 器 。 所 有 的 输入 都 可 
以 直接 送 给 控制 存储 器 ， 只 要 在 选择 MIR 并 读 出 数据 时 ， 也 就 是 在 时 钟 的 下 降 沿 时 ， 这 些 信 [257 
号 到 达 控 制 存 储 器 就 足够 了 。 并 不 需要 把 它们 实际 保存 在 MPC 中 。 由 于 这 一 原因 ，MPC 通 
常 被 实现 为 虚拟 寄存 器 ( virtual register )， 它 仅仅 是 一 个 信号 聚集 的 地 方 ， 更 像 一 个 电路 接线 
板 而 不 是 一 个 实际 的 寄存 器 。 把 MPC 设计 成 虚拟 寄存 器 可 以 简化 时 序 : 事件 只 发 生 在 时 钟 的 
下 降 沿 和 上 升 沿 而 不 会 发 生 在 别 的 地 方 。 当 然 ， 如 果 你 认为 把 MPC 看 作 是 寄存 器 更 容易 理解 
的 话 ， 也 未 尝 不 可 。 


4.2 ”指令 系统 举例 ; IJVM 


下 面 我 们 来 介绍 运行 在 图 4-6 中 的 微 体系 结构 上 的 指令 系统 层 IJYVM， 该 指令 系 
统 是 通过 微 程序 解释 执行 的 。 为 了 便于 讨论 ， 我 们 有 时 把 指令 系统 层 称 为 宏 体 系 结构 
( macroarchitecture )， 以 便 和 微 体系 结构 ( microarchitecture ) 相对 应 。 在 讨论 IJVM 之 前 ， 我 
们 先 稍微 走 会 题 ， 为 讨论 做 点 准备 。 


4.2.1 $È 


所 有 实际 使 用 的 编程 语言 都 支持 过 程 (procedure )， 或 者 方法 (method )， 过 程 有 自己 的 
局 部 变量 。 在 过 程 内 部 可 以 访问 这 些 变 量 ， 而 过 程 一 旦 返回 ， 这 些 变量 就 不 存在 了 。 这 里 就 
有 一 个 问题 :“ 这 些 变量 应 该 保存 在 内 存 的 什么 位 置 呢 ? ” 
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最 简单 的 方案 是 给 每 个 变量 一 个 绝对 的 内 存 地 址 ， 但 是 实际 上 该 方案 行 不 通 。 问 题 在 于 
过 程 可 以 调用 自己 (也 就 是 过 程 的 递归 调用 )。 我 们 将 在 第 5 章 中 研究 这 类 递归 过 程 。 这 里 要 
说 明 的 是 ， 如 果 一 个 过 程 被 调用 了 两 次 ， 那么 就 不 可 能 把 局 部 变量 保存 在 绝对 内 存 地 址 中 ， 
因为 第 二 次 调用 写 入 的 局 部 变量 将 会 影响 第 一 次 调用 的 局 部 变量 值 。 

因此 必须 使 用 其 他 的 方案 。 我 们 可 以 使 用 称 为 栈 (stack) 的 内 存 区 域 来 保存 变量 ， 栈 中 
的 变量 并 没有 绝对 地 址 ， 而 是 使 用 寄存 器 LV 指向 当前 过 程 的 局 部 变量 结构 的 基地 址 。 在 图 
4-8a 中 ， 过 程 A 被 调用 ， 它 有 3 个 局 部 变量 wal 、a2 和 a3， 它们 被 保存 在 从 LV 寄存 器 所 指 
的 内 存 地 址 开始 的 内 存 段 中 。 另 一 个 寄存 器 SP， 指向 A 的 局 部 变量 中 的 地 址 最 高 的 一 个 字 。 
如 果 LV 的 值 是 100， 每 个 字 的 长 度 为 4 个 字 节 ， 那 么 SP 的 值 就 是 108。 通 过 给 出 变量 相对 
于 LV 的 偏 移 量 来 访问 变量 。LV 和 SP 之 间 的 数据 结构 (包括 这 两 个 寄存 器 指向 的 字 ) 称 为 
A 的 局 部 变量 结构 (local variable frame )。 





a) A 正 在 执行 b) A 调 用 B 之 后 c) B 调 用 C 之 后 4) C 和 B 返 回 之 后 ，A 调 用 D 
图 4-8 使 用 栈 保 存 局 部 变量 


现在 我 们 来 看 一 看 如 果 A 调用 了 男 一 个 过 程 B 会 发 生 什么 情况 。B 的 4 个 局 部 变量 (bl, 
b2., 63, b4) 将 保存 在 哪里 呢 ? 答案 是 : 保存 在 栈 中 A 的 局 部 变量 结构 的 上 面 ， 如 图 4-8b 所 
示 。 过 程 调用 指令 将 使 LV 指向 B 的 局 部 变量 而 不 再 是 A 的 局 部 变量 。 然 后 就 可 以 通过 给 定 
相对 LV 的 偏 移 量 来 访问 B 的 局 部 变量 。 与 之 类 似 ， 如 果 B 调用 C， 那么 LV 和 SP 将 再 次 被 
调整 以 便 为 C 的 两 个 局 部 变量 分 配 空间 ， 如 图 4-8c 所 示 。 

当 C 返回 时 ，B 再 次 被 执行 ， 栈 又 被 恢复 成 4-8b 的 状态 ， 这 样 LV 就 可 以 再 次 指向 B 的 
局 部 变量 。 同 样 ， 当 B 返回 时 ， 栈 将 变 回 图 4-8a 的 状态 。 在 任何 情况 下 ，LYV 都 指向 当前 正 
在 执行 的 过 程 的 栈 段 的 底部 ，SP 则 指向 栈 段 的 顶部 。 

现在 假定 A 调用 D, D 有 5 个 局 部 变量 。 栈 就 将 变 成 图 4-8d 的 状态 ，D 的 局 部 变量 使 用 
T B 的 局 部 变量 用 过 的 相同 的 内 存 区 域 和 C 用 过 的 部 分 内 存 区 域 。 采 用 这 种 内 存 组 织 方式 ， 可 
以 只 为 当前 正在 执行 的 过 程 分 配 内 存 。 当 过 程 返回 后 ， 该 过 程 的 局 部 变量 使 用 的 内 存 将 被 释放 。 

除了 保存 局 部 变量 之 外 ， 栈 还 有 另 一 种 用 途 。 在 算术 表达 式 求 值 时 可 以 使 栈 保 存 操作 数 。 
当 栈 用 于 这 种 目的 时 ， 称 为 操作 数 栈 ( operand stack )。 举 个 例子 ， 假 定 在 调用 B 之 前 ，A 计 
算 表 达 式 

al = a2 + a3; 

计算 该 表达 式 的 一 种 方法 是 把 a2 压 人 栈 ， 如 图 4-9a Bras. SP 将 被 加 上 一 个 字 的 字 节 数 ， 
比如 4， 现 在 SP 就 指向 了 第 一 个 操作 数 。 然 后 ， 把 a3 RAR, WME 4-%b 所 示 。 补 充 一 句 ， 
变量 名 和 用 户 名 是 用 户 选择 的 ， 而 操作 码 和 寄存 器 的 名 称 则 是 系统 内 置 的 。 

现在 可 以 执行 实际 的 计算 了 ， 计 算 时 指令 会 把 这 两 个 数 弹出 栈 、 相 加 再 把 结果 压 回 栈 ， 
如 图 4-9c 所 示 。 最 后 ， 栈 顶 的 字 被 弹出 栈 并 保存 到 局 部 变量 al 中 ， 如 图 4-9d 所 示 。 
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SP 
S Y WY, A < —— od 
P BLL SP m z 
Lv—>|__ ai | W al dw LV 


a) b) c) d) 
图 4-9 使 用 操作 数 栈 执行 算术 运算 


局 部 变量 结构 和 操作 数 栈 可 以 混合 使 用 。 例 如 ， 计 算 表 达 式 二 tf/(xz) 时 ， 当 调用 /时 ， 
表达 式 x 的 结果 已 经 位 于 栈 顶 。 因 此 函数 /xz ) 的 结果 将 位 于 ?之 上 ， 这样 下 一 条 指令 就 可 
以 把 它们 相 加 。 

有 一 点 值得 注意 ， 虽 然 所 有 的 计算 机 都 使 用 栈 来 保存 局 部 变量 , 但 是 并 不 是 所 有 的 计算 
机 都 使 用 这 种 操作 数 栈 来 执行 算术 运算 。 实 际 上 ， 大 多 数 计算 机 都 不 这 人 么 做 ， 但 是 JVM 和 
IJVM 却 是 这 样 做 的 ， 这 也 是 我 们 在 这 里 介绍 栈 操作 的 原因 。 在 第 5 章 中 我 们 将 对 它们 进行 更 
详细 地 研究 。 


4.2.2 IJVM 内 存 模型 


现在 我 们 已 经 准备 好 研究 UVM 的 体系 结构 了 。 基 本 上 ， 它 是 由 一 块 内 存 组 成 的 ， 可 以 
用 两 种 方式 看 待 这 块 内 存 : 一 个 4 294 967 296 字 节 的 数组 (4GB) 和 一 个 1 073 741 824 个 字 
的 数组 ， 每 个 字 有 4 个 字 节 。 和 大 多 数 指令 系统 层 不 一 样 ，Java 虚拟 机 在 指令 系统 级 没有 直 
接 可 见 的 绝对 内 存 地 址 ， 但 是 有 几 种 隐 含 地 址 可 以 为 指针 提供 基地 址 。IJVM 只 能 通过 这 些 指 
针 来 访问 内 存 。JVM 启动 后 就 定义 了 下 列 内 存 区 : 

1) 常量 池 (constant pool )。IJVM 程序 不 能 对 该 区 域 执行 写 操作 ， 该 区域 由 常量 、 字 符 
串 和 指向 可 以 被 引用 的 其 他 内 存 区 域 的 指针 组 成 。 当 程序 被 加 载 至 内 存 时 同时 加 载 至 该 内 存 
区 ， 以 后 就 不 能 再 修改 了 。 隐 含 的 寄存 器 CPP 保存 了 常量 池 的 第 一 个 字 的 地 址 。 

2) 局 部 变量 结构 (local variable frame )。 每 次 调用 某 个 方法 时 ， 都 需要 分 配 一 块 内 存 区 
域 用 于 保存 该 方法 的 变量 。 这 块 区 域 就 是 局 部 变量 结构 。 该 段 的 开始 处 是 调用 方法 时 传递 的 
参数 。 局 部 变量 结构 不 包括 操作 数 栈 ， 操 作 数 栈 有 单独 的 内 存 区 。 考 虑 到 实现 的 效率 ， 我 们 
选择 了 在 局 部 变量 结构 的 上 方 ( 而 且 紧 挨 着 局 部 变量 结构 ) 实现 操作 数 栈 。 同 样 有 隐 含 的 寄 
存 器 保存 局 部 变量 结构 的 第 一 个 字 的 地 址 。 我 们 把 该 寄存 器 称 为 LV。 调用 方法 时 传递 给 方法 
的 参数 保存 在 局 部 变量 结构 的 开始 处 。 

3 ) 操作 数 栈 (operand stack )。Java 编译 器 在 编译 时 就 预先 保证 了 栈 段 不 会 超过 某 个 特定 
的 大 小 。 操 作 数 栈 的 空间 直接 在 局 部 变量 结构 的 上 方 分 配 ， 如 图 4-10 所 示 。 为 了 便于 理解 ， 
读者 可 以 把 我 们 的 实现 中 的 操作 数 栈 看 成 是 局 部 变量 结构 的 一 部 分 。 在 任何 情况 下 ， 都 有 一 
个 隐 含 的 寄存 器 保存 栈 顶 的 地 址 。 需 要 注意 的 是 ， 与 CPP 和 LV 不 同 ， 栈 顶 指针 SP 会 随 着 操 
作 数 的 进 栈 和 出 栈 而 不 断 地 改变 。 

4) 方法 区 (method area )。 最 后 一 个 区 域 是 保存 程序 的 内 存 区 ， 类 似 于 UNIX 进程 中 的 
正文 区 。 这 里 ， 也 有 一 个 隐 含 的 寄存 器 指向 下 一 条 指令 的 地 址 。 我 们 把 该 寄存 器 称 为 程序 计 
数 器 ( PC )。 和 其 他 的 内 存 区 不 同 ， 方 法 区 是 一 个 字 节 数组 。 

关于 指针 还 需要 说 明 一 点 。CPP、LV 和 SP 寄存 器 都 是 指向 字 的 指针 ， 而 不 是 字 节 ， 也 
就 是 说 ， 偏 移 量 是 以 字 为 单位 计算 的 。 对 于 我 们 选择 的 整数 子 集 来 说 ， 对 常量 池 、 局 部 变量 
结构 和 栈 的 引用 都 是 字 ， 所 有 的 偏 移 量 都 是 字 偏 移 量 。 例 如 ，LV、LV+1 和 LV+2 分 别 指向 局 
部 变量 结构 的 前 三 个 字 。 而 LV、LV+4 和 LV+8 则 指向 间隔 为 4 个 字 (16 个 字 节 ) 的 三 个 字 。 
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图 4-10 IVM 内 存 的 不 同 部 分 


相 比 之 下 ，PC 则 保存 的 是 字 节 地 址 ， 对 PC 进行 加 减 运算 改变 的 地 址 都 是 按照 字 节 计算 
的 ， 而 不 再 是 字 。 对 PC 寻 址 和 其 他 寄存 器 的 寻 址 不 同 ， 显 然 Mic-1 为 PC 提供 了 特殊 的 内 存 
端口 。 请 记 住 PC 只 有 一 个 字 节 宽 。 对 PC 加 1 并 启动 读 操作 将 得 到 下 一 个 字 节 的 内 容 ， 而 对 
SP 加 1 并 启动 读 操 作 将 得 到 下 一 个 字 的 内 容 。 


4.2.3 IVM 指令 集 


UVM 指令 集 如 图 4-11 所 示 。 每 条 指令 都 有 操作 码 ， 有 的 还 有 操作 数 ， 比 如 内 存 偏 移 量 
或 者 常量 。 表 中 的 第 一 列 是 指令 的 16 进 制 编码 。 第 二 列 是 汇编 语言 助 记 符 。 第 三 列 是 指令 功 
能 的 简单 描述 。 


十 六 进 制 操作 码 
| ws9 [DUP CCT cael 
无 条 件 转移 
ey AD rad 
OxB6 
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UP 
ISTE, TEMALAR 
SRDS, EMM “5” ARENR 
| ”0x99 eoma ”| ARTON TE, LE 0 NRB 
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2 | 


eA A 
Je ABARAT BR 
C oss INVOKEVIRTUAL dap | 调用 一 个 方法 


0x9B 从 栈 顶 弹出 一 个 字 ， 如 果 小 于 0 则 转移 
ADM ATS, WRAL 
| œw TOR | RR, 把 它们 OR SRR ARR 


at Ag ADP 
ABR li EAER 
REE, EENNZEAE 


ne i eS: | eee 
| r Pop eee E TT ee ee A T 
4-11 IJVM 指令 集 。 操 作 数 中 的 byte. const 和 varnum 都 是 一 个 字 节 。 
操作 数 中 的 disp, index 和 offset 都 是 两 个 字 节 
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压 栈 指令 有 多 条 ， 用 于 把 不 同 来 源 的 字 压 人 栈 。 这 些 来 源 包括 常量 池 (LDC_W )、 局 部 
变量 结构 (ILOAD ) 和 指令 本 身 (BIPUSH )。 也 可 以 把 栈 中 的 变量 弹出 并 保存 在 局 部 变量 结 
构 中 (ISTORE )。 两 条 算术 指令 LADD 和 ISUM 以 及 两 条 逻辑 指令 LAND 和 IOR 都 使 用 栈 顶 
两 个 字 作为 操作 数 。 所 有 的 算术 和 逮 辑 指令 都 从 栈 中 弹出 两 个 字 并 把 结果 存 回 栈 。LUVM 中 共 
有 4 条 转移 指令 ， 一 条 无 条 件 转移 (GOTO) 和 三 条 条 件 转移 (IFEQ IFLT fil IF_ICMPEQ )。 
使 用 这 些 转移 指令 时 ， 将 使 用 指令 中 操作 码 之 后 的 16 位 带 符号 的 偏 移 量 改变 PC 的 值 。 改 变 
的 方法 是 把 偏 移 量 加 上 操作 码 的 地 址 。IJVM 中 还 有 交换 栈 顶 两 个 字 的 指令 (SWAP) N 
栈 顶 的 字 的 指令 (DUP) 和 从 栈 中 弹出 字 的 指令 (POP) 

某 些 指令 有 多 种 格式 ， 人 允许 为 常见 的 情况 提供 较 短 的 格式 。 在 UVM 中 ， 我 们 使 用 了 
JVM 中 用 到 的 两 种 不 同 的 机 制 来 实现 这 一 点 。 一 种 情况 下 ， 我 们 跳 过 短 格式 而 使 用 一 般 的 格 
式 。 另 一 种 情况 下 ， 我 们 将 使 用 前 绥 指 令 WIDE 来 修改 其 后 续 的 指令 。 

最 后 ， 指 令 INVOKEVIRTUAL 用 于 调用 另 一 个 方法 ， 另 一 条 指令 ( IRETURN ) WHF 
从 被 调用 的 方法 返回 发 起 调用 的 方法 。 由 于 Java 调用 机 制 很 复杂 ， 我 们 对 定义 进行 了 一 些 简 
化 ， 这 样 就 得 到 了 比较 简单 的 调用 和 返回 机 制 。 与 Java 不 同 的 地 方 是 ， 我 们 只 人 允许 方法 调用 
位 于 它 自己 对 象 之 内 的 方法 。 这 一 限制 严重 削弱 了 Java 的 面向 对 象 特性 但 是 却 可 以 得 到 一 个 
比较 简单 的 机 制 ， 因 为 我 们 避免 了 对 方法 进行 动态 定位 。( 如 果 你 不 熟悉 面向 对 象 编 程 ， 你 可 
以 不 看 这 段 注释 。 我 们 所 做 的 工作 就 是 把 Java 变 成 了 非 面 向 对 象 的 语言 ， 就 像 C 和 Pascal. ) 
在 除 JVM 之 外 的 所 有 计算 机 中 ， 被 调用 的 过 程 的 地 址 都 是 由 CALL 指令 直接 决定 的 ， 因 此 我 
们 的 方案 是 一 个 常见 的 方案 ， 而 不 是 一 个 特例 。 

下 面 是 调用 一 个 方法 的 过 程 。 首 先 ， 调 用 者 把 指向 被 调用 对 象 的 指针 压 入 栈 。( IJVM 中 
并 不 需要 这 个 指针 ， 因 为 不 能 调用 其 他 对 象 ， 但 是 为 了 和 JVM 保持 一 致 ,， 我们 还 是 保留 了 这 
个 指针 。) 图 4-12a 中 的 OBJREF 就 是 这 个 指针 。 然 后 调用 者 把 方法 的 参数 压 人 栈 ， 本 例 中 是 
参数 1、 参 数 2 和 参数 3。 最 后 执行 INVOKEVIRTUAL。 

INVOKEVIRTUAL 指令 中 有 一 个 偏 移 量 ， 该 偏 移 量 指向 常量 池 中 的 某 个 位 置 ， 在 这 个 
位 置 中 保存 的 是 被 调用 的 方法 在 方法 区 中 的 起 始 地 址 。 虽 然 方 法 代码 位 于 该 指针 指定 的 位 置 ， 
但 是 前 4 个 字 节 是 特殊 数据 。 前 两 个 字 节 是 一 个 16 位 的 整数 ， 表 示 方 法 的 参数 的 数量 ( 参数 
本 身 已 经 被 压 人 栈 )。 计 算 时 ，OBJREF 也 作为 参数 : 参数 0。 这 个 16 位 的 整数 和 SP 一 起 决 
Æ T OBJREF 的 位 置 。 注 意 ，LV 指向 的 是 OBJREF 而 不 是 第 一 个 实际 参数 。LYV 指向 哪里 在 
某 些 时 候 是 随机 的 。 

方法 区 中 接 下 来 的 两 个 字 节 组 成 了 另 一 个 16 位 的 整数 ， 它 表示 被 调用 方法 的 局 部 变量 结 
构 的 大 小 。 这 是 必需 的 ， 在 为 被 调用 的 方法 创建 新 的 栈 时 ， 栈 是 建立 在 局 部 变量 结构 的 上 方 
的 。 方 法 区 的 第 5 个 字 节 才 是 第 一 条 可 执行 指令 。 

INVOKEVIRTUAL 指令 的 实际 执行 过 程 如 下 所 述 ( 见 图 4-12 )。 指 令 的 操作 码 之 后 是 两 
个 无 符号 的 索引 字 节 ， 用 于 组 成 指向 常量 池 的 索引 (第 一 个 字 节 是 高 端 字 节 )。 指 令 计算 新 的 
局 部 变量 结构 的 基地 址 ， 计 算 的 方法 是 从 栈 指针 中 减 去 参数 的 个 数 并 使 LV 指向 OBJREF。 在 
这 个 位 置 上 覆 写 OBJREF， 我 们 的 实现 保存 了 指向 保存 原 有 PC 位 置 的 指针 。 该 地 址 的 计算 方 
法 如 下 ， 把 局 部 变量 结构 的 大 小 (参数 + 局 部 变量 的 个 数 ) 加 上 LV 中 所 保存 的 地 址 。 在 保 
存 原 有 的 PC 的 地 址 之 上 的 字 保 存 的 是 原 有 的 LV。 再 向 上 就 是 新 的 被 调用 方法 的 栈 的 起 始 地 
址 了 。SP 指向 原 有 的 LV， 它 在 栈 的 第 一 个 空位 置 之 下 。 回 忆 一 下 ，SP 总 是 指向 栈 顶 。 如 果 
栈 是 空 的 ，SP 就 指向 栈 之 下 的 第 一 个 位 置 ， 因 为 我 们 的 栈 是 向 上 增长 的 (也 就 是 向 高 地 址 增 
长 )。 在 我 们 的 图 中 ， 栈 总 是 向 上 ， 向 高 地 址 ， 也 就 是 向 页 面 的 上 部 增长 。 
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INVOKEVIRTUAL 指令 执行 的 最 后 一 步 操作 是 使 PC 指向 方法 区 的 第 5 个 字 节 。 














执行 INVOKEVIRTUAL 
之 后 的 楼 
执行 INVOKEVIRTUAL 
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参数 ] | 
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局 部 变量 < 用 者 的 局 部 变量 
INVOKEVIRTUAL 到 
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i Link Ptr wv | a A 
a) 执行 INVOKEVIRTUAL 之 前 的 内 存 b 执行 之 后 的 内 存 
图 4-12 


IRETURN 指令 执行 的 操作 和 INVOKEVIRTUAL 指令 相反 ， 如 图 4-13 所 示 。 它 回收 该 方法 
使 用 的 空间 ， 还 把 栈 恢复 到 调用 之 前 的 状态 ， 所 不 同 的 是 (1) OBJREF (是 被 覆 写 过 的 ) 和 所 
有 的 参数 都 弹出 了 栈 , (2) 返回 值 被 放 在 了 栈 顶 ， 在 OBJREF 所 占据 的 位 置 上 。 为 了 恢复 原来 
的 状态 ， 耻 ETURN 指令 必须 能 使 PC 和 LV 指向 原来 的 值 。 它 通过 访问 链接 指针 该 指针 位 于 
当前 的 LV 指针 指向 的 位 置 ) 来 完成 这 一 工作 。 请 记 住 ， 在 这 个 位 置 上 原来 保存 的 是 OBJREF， 
INVOKEVIRTUAL 指令 则 把 包含 原来 的 PC 的 地 址 保存 在 这 个 位 置 上 。 这 个 字 和 它 上 面 的 一 个 
字 分 别 用 于 恢复 PC 和 LV 的 原 值 。 保 存在 栈 顶 的 返回 值 被 拷贝 到 最 初 保存 OBJREF 的 位 置 上 ， 
然后 SP 指向 该 位 置 。 最 后 把 控制 权 交还 给 INVOKEVIRTUAL 指令 之 后 的 第 一 条 指令 。 


IRETURN 之 前 的 
栈 基地 址 了 了 ETURN 之 后 的 栈 





































以 前 的 PC 
调用 者 的 
局 部 变量 x 调用 者 的 局 部 变量 调用 者 的 局 部 变量 
wie ee) r e 
栈 基 地 址 
参数 1 
L = 起 Link Ptr | LV 
a) 执行 IRETURN 之 前 的 内 存 b) 执行 之 后 的 内 存 


图 4-13 
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到 目前 为 止 ， 我 们 的 计算 机 中 还 没有 任何 输入 /输出 指令 。 我 们 也 不 准备 增加 任何 输入 / 
输出 指令 。 这 里 并 不 需要 任何 输入 /输出 指令 ，JVM 中 也 不 需要 ， 在 JVM 的 标准 规范 中 甚至 
根本 没有 提 到 输入 /输出 。 依 据 的 理论 是 没有 输入 和 输出 的 计算 机 是 安全 的 (JVM 中 执行 的 
读 写 操作 是 通过 调用 特殊 的 方法 来 实现 的 ， 这 些 方法 执行 输入 /输出 功能 )。 


4.2.4 将 Java 编译 为 | JVM 


下 面 我 们 来 讨论 Java 和 IJVM 之 间 的 关系 。 图 4-14a 中 是 一 段 简单 的 Java 代码 。 把 这 段 
代码 输入 到 Java 编译 器 中 后 ， 编 译 器 生成 的 IJVM 汇编 语言 可 能 如 图 4-14b 所 示 。 汇 编 语言 
左面 的 1 ~ 15 的 行 号 并 不 是 编译 器 的 输出 。 注 释 ( 以 // 开始 的 说 明 ) 也 不 是 编译 器 的 输出 。 
将 其 列 在 此 处 只 是 为 了 便于 我 们 来 解释 这 个 过 程 。Java 汇编 器 将 把 汇编 程序 翻译 成 二 进 制程 
序 ， 如 图 4-14e 所 示 。( 实际 上 ，Java 编译 器 自己 做 汇编 工作 并 直接 生成 二 进 制程 序 。) 在 这 
个 例子 中 ,我 们 假定 i 是 局 部 变量 1, j 是 局 部 变量 2, 上 是 局 部 变量 3。 




















1 ILOAD j li=j+k 0x15 0x02 
2 ILOAD k 0x15 0x03 
3 [ADD 0x60 
4 ISTORE i 0x36 0x01 
5 ILOAD i // if (i == 3) 0x15 0x01 
6 BIPUSH 3 0x10 0x03 
7 IF_ICMPEQ L1 Ox9F 0x00 0x0D 
8 ILOAD j Wj=j-1 0x15 0x02 
9 BIPUSH 1 0x10 0x01 
10 ISUB 0x64 
11 ISTORE j 0x36 0x02 
12 GOTO L2 OxA7 0x00 0x07 
13 Li: BIPUSHO k=0 0x10 0x00 
ISTORE k 0x36 0x03 
a) 一 段 Java 程 序 b) 相应 的 Java 汇 编 语 言 c) 用 十 六 进 制 表示 的 IJVM 程 序 
图 4-14 


编译 生成 的 代码 是 很 直观 的 。 首 先 把 j 和 k 压 人 栈 ， 相 加 并 把 结果 保存 在 i 中。 然后 把 i 
和 常量 3 压 人 栈 并 进行 比较 。 如 果 相 等 ,将 跳 转 到 Ll1, 在 Ll 处 , 被 赋值 为 0。 如 果 不 等 则 
继续 执行 IF_ICMPEQ 之 后 的 指令 。 当 工作 完成 后 ,程序 将 跳 转 到 L2， 在 L2 处 then Ail else 
部 分 将 汇合 。 

图 4-14b 中 的 IJVM 程序 的 操作 数 栈 如 图 4-15 所 示 。 在 代码 开始 执行 之 前 ， 栈 是 空 的 ， 
用 0 之 上 的 一 根 水 平 线 来 表示 。 在 第 一 条 ILOAD 指令 之 后 , HEAR, 用 1 (意味 着 指令 
1 已 经 执行 了 ) 和 之 上 的 框 j 表示 。 在 第 二 条 ILOAD 指令 之 后 ， 栈 中 将 有 两 个 字 , 在 2 的 上 
面 。 在 IADD 指令 执行 之 后 ， 栈 中 又 只 有 一 个 字 了 ， 它 是 / 和 天 的 和 。 当 栈 顶 的 字 从 栈 中 弹 
出 并 保存 在 i 中 之 后 ， 栈 将 变 空 ， 如 第 4 行 所 示 。 





CEN 3 ae CAA aie i 
0 1 2 3 4 5 6 7 
HE: J Ei] eo] 
8 9 10 11 12 13 14 15 
图 4-15 图 4-14b 中 每 条 指令 执行 之 后 的 栈 
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指令 5 (ILOAD ) HWE i RAPE EIT ER if iB (ONS 所 示 )。 接 着 把 常量 3 AR ( 见 第 
6 行 )。 在 执行 比较 之 后 ， 栈 再 次 为 空 ( 见 第 7 行 )。 指 令 8 是 Java 程序 段 的 else 部 分 。else 
部 分 一 直到 指令 12 为 止 ， 指 令 12 将 跳 过 then 部 分 并 转移 到 标号 L2。 


4.3 ”实现 举例 


前 面 已 经 详细 定义 了 微 体 系 结构 和 宏 体 系 结构 ， 剩 下 的 问题 就 是 实现 了 。 换 句 话 说， 程 
序 是 在 微 体系 结构 上 运行 的 并 由 宏 体系 结构 解释 的 ， 那 么 它 的 执行 和 解释 过 程 到 底 如 何 呢 ? 
它 又 是 如 何 工作 的 呢 ?” 在 回答 这 些 问 题 之 前 ,我们 必须 认真 考虑 如 何 用 符号 描述 我 们 的 实现 。 


4.3.1 微 指 令 和 符号 


从 原理 上 说 ， 我 们 可 以 用 二 进 制 数 表 示 控 制 存储 器 ， 每 个 字 36 位 。 但 是 和 传统 编程 语言 
一 样 ， 如 果 能 够 使 用 符号 语言 表示 我 们 需要 处 理 的 主要 问题 ， 就 可 以 忽略 含混 星 涩 的 技术 细 
节 ， 将 有 助 于 我 们 更 好 地 理解 而 且 更 便于 自动 处 理 。 有 一 点 很 重要 ， 我 们 选择 的 语言 主要 是 
用 于 讲解 概念 而 不 是 为 了 追求 高 效率 的 设计 。 如 果 我 们 的 目标 是 高 效率 ， 那 么 我 们 可 以 使 用 
另 一 种 不 同 的 符号 语言 来 为 设计 者 提供 最 大 的 灵活 性 。 地 址 选择 是 符号 语言 的 重要 方面 。 因 
为 控制 存储 器 没有 逻辑 次 序 ， 在 我 们 定义 操作 序列 时 也 没有 缺 省 的 “下 一 指令 "。 设 计 者 〈 或 
者 汇编 器 ) 有 效 地 选择 地 址 的 能 力 将 决定 控制 组 织 的 大 部 分 的 功能 。 下 面 我 们 将 介绍 一 个 简 
单 的 符号 语言 ， 它 可 以 完全 描述 每 一 个 操作 而 根本 无 须 解释 地 址 是 如 何 决定 的 。 

我 们 的 符号 语言 在 一 行 中 定义 了 在 一 个 时 钟 周 期 中 发 生 的 所 有 动作 。 从 理论 上 说 ， 我 们 
可 以 使 用 高 级 语言 描述 操作 。 但 是 ， 一 个 周期 接着 一 个 周期 的 控制 是 非常 重要 的 ， 因 为 它 带 
来 了 并 行 执行 多 个 操作 的 可 能 ， 而 且 我 们 可 以 通过 分 析 每 个 周期 的 动作 ， 来 理解 并 验证 操作 
的 正确 性 。 如 果 设 计 目 标 是 快速 和 高 效率 ( 在 其 他 条 件 相同 的 情况 下 ， 快 速 和 高 效率 总 是 比 
慢 速 和 低 效率 好 )， 那 么 每 个 时 钟 周期 都 要 精打细算 。 在 一 个 实际 的 设计 中 ,通常 会 使 用 许多 
技巧 ， 为 了 减少 一 个 时 钟 周期 ,设计 者 会 不 惜 使 用 含混 星 涩 的 操作 序列 。 减 少 周 期 的 回报 是 
很 大 的 : 把 一 条 四 个 周期 的 指令 减少 为 两 个 周期 就 相当 于 执行 速度 快 了 两 倍 。 而 且 每 次 执行 
这 条 指令 都 能 得 到 这 样 的 加 速 比 。 

一 种 可 能 的 策略 是 简单 地 列 出 每 个 时 钟 周 期 被 激活 的 信号 。 假 定 在 一 个 周期 中 我 们 想 使 
SP 加 1， 还 想 启 动 一 个 读 操作 ， 并 且 还 要 从 控制 存储 器 的 122 处 取得 下 一 条 指令 。 那 么 ,我 
们 可 以 这 样 写 : 

ReadRegister = SP, ALU = INC, WSP, Read, NEXT_ADDRESS = 122 


WSP 的 意思 是 写 SP 寄存 器 (write the SP register )。 这 条 符号 表示 是 完整 的 ， 但 是 难以 
理解 。 因 此 我 们 并 不 采用 这 种 表示 法 ， 而 是 采用 自然 而 且 直 观 的 方式 来 表示 指令 的 操作 结果 : 


SP = SP + 1; rd 


我 们 把 高 级 微 汇 编 语 言 (high-level Micro Assembly Language ) 称 为 MAL ( 在 法 语 中 表 
示 生 病 ， 意 思 是 如 果 你 使 用 这 种 语言 编写 了 太 多 的 程序 ， 你 肯定 会 生病 )。MAL 很 好 地 反映 
了 微 体系 结构 的 特点 。 每 个 时 钟 周 期 都 可 以 写 寄存 器 ,但 是 一 般 只 写 人 一 个 寄存 器 。 只 有 一 
个 寄存 器 的 值 可 以 到 达 ALU 的 B 输入 端 。 而 在 A 输入 端 ， 可 以 选择 +1、0、-1 和 五 寄存 器 。 
因此 我 们 可 以 使 用 一 条 和 Java 一 样 的 简单 赋值 语句 来 表示 执行 的 操作 。 例 如 ， 把 SP 指向 的 
内 存 拷贝 到 MDR ， 我 们 可 以 写成 : 
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MDR = SP 
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如 果 要 表示 使 用 了 ALU 的 功能 而 不 仅仅 是 通过 B 总 线 ， 我 们 可 以 写成 如 下 所 示 : 


MDR=H+SP 


这 条 语句 表示 把 HH 寄存 器 和 SP 寄存 器 的 内 容 相 加 并 把 结果 写 回 MDR。+ 操 作 是 可 交换 的 


(意思 是 结果 和 操作 数 顺 序 无 关 )， 因 此 上 面 的 语句 也 可 以 
写成 : 

MDR = SP +H 
这 两 条 语句 将 生成 相同 的 36 位 微 指 令 ， 虽 然 严 格 地 说 百 
必须 是 ALU 的 左 操作 数 。 

我 们 必须 注意 只 使 用 合法 的 操作 。 图 4-16 中 列 出 了 
所 有 重要 的 操作 ， 图 中 的 SOURCE 可 以 是 MDR、PC、 
MBR、MBRU、SP、LV、CPP、TOS 或 OPC 中 的 任何 一 
个 (MBRU 是 无 符号 的 MBR )。 这 些 寄存 器 都 可 以 通过 
B 总 线 作 为 ALU 的 输入 。 类 似 地 ，DEST 可 以 是 MAR、 
MDR, PC, SP, LV, CPP, TOS, OPCR#HPHEE 
一 个 ， 它 们 都 是 通过 C 总 线 ALU 输出 可 以 到 达 的 寄存 器 。 
这 种 格式 具有 欺骗 性 ， 因 为 许多 看 上 去 合理 的 语句 却 是 非 
法 的 。 例 如 : 

MDR = SP + MDR 
看 上 去 相当 合理 ,但 是 在 图 4-6 所 示 的 数据 通路 上 ， 这 条 
语句 没 办 法 在 一 个 周期 内 完成 。 原 因 是 除了 加 1 和 减 1 之 
Sb, ALU 必须 有 一 个 操作 数 来 自 互 寄存 器 。 与 此 类 似 ， 


H =H- MDR 


也 很 有 用 ， 但 是 同样 也 不 可 能 实现 ， 因 为 互 寄存 器 只 能 是 减 数 。 汇 编 器 将 会 拒绝 执行 这 些 看 


上 去 正确 但 是 实际 上 却 是 非法 的 语句 。 


我 们 对 符号 语言 进行 了 扩展 ， 人 允许 使 用 连 等 号 进行 多 次 赋值 。 例 如 ，SP 加 1 并 把 结果 同 


时 存 人 SP 和 MDR， 可 以 写成 : 
SP =MDR=SP +1 
















DEST= -1 






图 4-16 所 有 人 允许 的 操作 。 上 面 所 


有 的 操作 都 可 以 通过 增加 
“<<8” 把 结果 左 移 一 个 
字 节 。 例如， 一 种 常见 的 
操作 是 H=MBR <<8 


N 
co 


微 指 令 中 的 rd 和 wr 分 别 用 于 指示 内 存 读 写 4 字 节 的 数据 字 。 通 过 字 节 端口 取 一 个 字 用 
fetch 表示 。 赋 值 和 内 存 操作 可 以 在 一 个 周期 中 发 生 ， 把 它们 写 在 同一 行 中 表示 在 同一 个 周期 
中 操作 。 
为 了 避免 混淆， 我 们 再 强调 一 次 ，Mic-1 有 两 种 访问 内 存 的 方式 。 使 用 MAR/MDR 读 写 
4 字 节 的 数据 字 分 别 用 微 指 令 rd 和 wr 表示 。 使 用 PC/MBR 从 指令 流 中 读 取 一 个 字 节 的 操作 
码 用 微 指令 fetch 表示 。 这 两 种 内 存 操作 可 以 同步 执行 。 
但 是 ， 同 一 个 寄存 器 在 一 个 周期 中 不 能 同时 接收 内 存 和 数据 通路 的 值 。 请 看 下 面 的 代码 : 


MAR = SP; rd 
MDR =H 
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第 一 条 微 指令 的 执行 结果 是 在 第 二 条 微 指令 结束 时 ， 把 从 内 存 读 出 的 值 存 人 MDR。 但 是 
第 二 条 微 指令 也 同时 为 MDR 赋 了 值 。 这 两 条 赋值 语句 是 相互 冲突 的 ， 不 允许 出 现 这 样 的 情 
况 ， 因 为 这 种 情况 将 导致 最 后 的 结果 不 确定 。 

前 文 曾经 提 到 ， 每 条 微 指令 都 必须 明确 提供 下 一 条 执行 的 微 指令 的 地 址 。 一 般 来 说 ， 只 
有 在 一 条 微 指令 被 其 他 的 微 指令 调用 的 情况 下 才 会 用 到 下 地 址 ， 换 句 话说 ， 当 微 指 令 不 是 顺 
序 执行 时 才 使 用 下 地 址 。 为 了 减轻 编写 微 程序 的 程序 员 的 负担 ， 微 汇编 器 一 般 都 为 每 条 微 指 
令 分 配 了 地 址 ( 并 不 需要 在 控制 存储 器 中 连续 )， 并 填充 了 NEXT_ADDRESS 字段 ， 这 样 写 
在 连续 行 中 的 微 指令 就 可 以 连续 执行 了 。 

但 是 ， 有 时 候 微 程序 员 可 能 需要 条 件 转移 或 者 无 条 件 转移 。 无 条 件 转 移 的 表示 很 简单 : 

goto label 


它 可 以 用 在 任何 微 指 令 中 以 明确 指出 它 的 下 一 条 微 指 令 。 例 如 ， 大 多 数 的 微 指令 序列 结 
东 时 都 返回 到 主 循环 的 第 一 条 微 指 令 ， 因 此 每 个 微 指令 序列 中 的 最 后 一 条 微 指 令 都 包括 : 
goto Main1 


注意 一 点 ， 在 执行 包括 goto 的 微 指 令 时 数据 通路 是 可 用 的 。 毕 竟 ， 每 条 微 指 令 都 有 
NEXT _ ADDRESS 字段 。goto 执行 的 操作 是 通知 微 汇 编 器 用 goto 后 面 的 地 址 取代 微 指令 中 下 
一 行 微 指令 的 地 址 。 从 原理 上 说 ， 每 行 都 可 以 有 goto 语句 ， 但 是 为 了 便于 微 程序 编程 ， 当 目 
标 地 址 是 下 一 行 中 的 微 指 令 时 ， 可 以 忽略 goto。 

如 果 是 条 件 转移 ， 表 示 法 就 不 同 了 。 回 忆 一 下 ，JAMN 和 JAMZ 使 用 N AZ 位， 它们 来 
自 ALU 的 输出 。 例 如 ， 有 时 候 需 要 检查 寄存 器 的 值 是 否 为 0。 一 种 可 行 的 方法 是 通过 ALU 
运行 并 把 该 寄存 器 存 回 自身 。 可 以 这 样 写 : 

TOS = TOS 

虽然 看 起 来 有 点 奇怪 ， 但 是 它 确 实 能 工作 (基于 TOS 可 以 设置 Z 触发 器 ) BÆ, 为 了 
使 微 程序 的 可 读 性 更 好 ， 我 们 扩展 了 MAL， 增 加 了 两 个 新 的 假想 的 寄存 器 N 和 Z， 可 以 对 它 
们 赋值 。 例 如 : 

Z=TOS 

让 TOS F ALU, RERE ZAN fh, BECHERA SRE. EH Z 
或 者 N 作为 目的 寄存 器 的 实际 含义 是 告诉 微 汇编 器 把 图 4-5 中 的 C 字段 中 的 所 有 位 都 清 为 0。 
数据 通路 像 正 常 的 周期 一 样 执行 ， 所 有 正常 的 操作 都 允许 ， 但 是 不 写 人 任何 寄存 器 。 请 注意 ， 
无 论 目的 寄存 器 是 N 还 是 Z， 微 汇编 器 生成 的 微 指 令 都 是 相同 的 。 故 意 选 择 一 个 错误 的 寄存 
器 的 程序 员 应 该 被 强迫 使 用 4.77MHz 的 IBM PC 一 个 星期 作为 惩罚 。 

通知 微 汇 编 器 设置 JAMZ 位 的 语法 是 : 

if (Z) goto L1; else goto L2 

硬件 要 求 L1 和 L2 这 两 个 地 址 的 低 8 位 相同 ,因此 微 汇编 器 需要 给 它们 分 配 这 样 的 地 
址 。 男 一 方面 ， 由 于 L2 可 以 是 控制 存储 器 底部 256 字 中 的 任意 一 个 ， 因 此 微 汇编 器 可 以 有 很 
大 的 空间 来 寻找 可 用 的 组 合 。 

一 般 这 两 条 语句 是 结合 使 用 的 ， 例 如 : 


Z = TOS; if (Z) goto L1; else goto L2 


这 条 语句 的 结果 是 MAL 生成 一 条 微 指 令 ， 这 条 微 指 令 控制 TOS 穿 过 ALU;( 但 是 并 不 
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保存 在 任何 地 方 ) 用 于 设置 Z 位 。 当 ALU WARE AEA ZARA, “TERRA MPC 的 最 
高 位 执行 OR 操作 ， 以 便 从 工 2 或 者 工 1 处 得 到 下 一 条 微 指令 (因此 L2 必须 在 Ll 之 后 256 个 
字 )。 当 MPC 稳定 之 后 就 使 用 MPC 取得 下 一 条 微 指 令 。 

最 后 ， 我 们 还 需要 表示 JMPC 位 用 法 的 符号 语言 。 我 们 使 用 的 是 : 

goto (MBR OR value) 

它 告诉 微 汇 编 器 使 用 value {EJ NEXT_ADDRESS 并 设置 JMPC 位 ， 因 此 或 者 是 MBR 
或 者 是 NEXT_ADDRESS 进入 MPC。 通 常情 况 下 ， 如 果 value 是 0， 那么 这 时 就 可 以 写成 : 

goto (MBR) 

请 注意 只 有 MBR 的 低 8 位 传人 MPC (参见 图 4-6)， 因 此 这 里 没有 符号 扩展 (也 就 是 
MBR 和 MBRU ) 的 问题 。 另 外 一 点 是 MBR 只 在 当前 使 用 周期 的 最 后 才 有 效 。 因 此 本 条 微 指 
令 启 动 的 取 指 操作 对 下 一 条 微 指令 的 选择 没有 影响 。 

4.3.2 用 Mic-1 实现 |JVM 

现在 我 们 可 以 把 前 面 讨论 的 各 个 方面 综合 在 一 起 了 。 图 4-17 是 在 Mic-1 上 运行 的 微 程 
序 ， 它 负责 解释 IJVM。 它 相当 地 短 ， 一 共 只 有 112 条 微 指令 。 每 条 微 指 令 有 三 列 : 标号 、 实 
际 的 微 码 和 注释 。 请 注意 ， 连 续 执行 的 微 指 令 并 不 一 定 保存 在 控制 存储 器 连续 的 地 址 中 ， 这 
一 点 我 们 前 面 已 经 提 到 过 。 


标 号 操 fF it 释 
Mainl PC=PC + 1; fetch; goto (MBR) MBR 保存 操作 码 ; 取 下 一 个 字 节 ; 多 路 转移 
nop! goto Main1 什么 也 不 做 
iaddl MAR =SP=SP-1;rd 读 入 栈 中 栈 顶 之 下 的 字 
iadd2 H=TOS H =M 
iadd3 MDR = TOS = MDR + H; wr; goto Main1 栈 顶 的 两 个 字 相 加 ; 结果 写 回 栈 
isubl MAR = SP=SP~— 1;rd 读 人 栈 中 栈 顶 之 下 的 字 
isub2 H=TOS H = 
isub3 MDR = TOS = MDR — H; wr; goto Main1 执行 减法 ， 结 果 写 回 栈 
iand1 MAR = SP = SP — 1; rd 读 人 栈 中 栈 顶 之 下 的 字 
iand2 了 =TOS H =i 
iand3 MDR = TOS = MDR AND H; wr; goto Main! ”执行 AND 运算 ， 结 果 写 回 栈 
iorl MAR = SP = SP - 1; rd 读 人 栈 中 栈 顶 之 下 的 字 
ior2 H=TOS H =$ 
ior3 MDR = TOS = MDR OR H; wr; goto Mainl 执行 OR 运算 ， 结 果 写 回 栈 
dupl MAR = SP=SP+1 SP 加 1 并 拷贝 到 MAR 中 
dup2 MDR = TOS; wr; goto Mainl 写 新 栈 字 
popl MAR = SP= SP - 1; rd 读 人 栈 中 栈 顶 之 下 的 字 
pop2 等 待 从 内 存 中 读 人 新 的 TOS 
pop3 TOS = MDR; goto Mainl WF WZ TOS 中 
swap! MAR =SP- 1; rd MAR 赋值 为 SP 一 1; 读 人 栈 顶 之 下 的 字 
swap2 MAR = SP MAR 赋值 为 栈 顶 指针 
swap3 H = MDR; wr 把 TOS 保存 在 互 中 ; 把 栈 第 二 个 字 写 和 人 栈 顶 
swap4 MDR = TOS 把 旧 的 TOS 拷贝 到 MDR 中 
swap5 MAR = SP— 1; wr MAR 赋值 为 SP- 1; 写 入 栈 中 的 第 二 个 字 
swap6 TOS = H; goto Main1 修改 TOS 


图 4-17 Mic-1 的 微 程 序 
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标 号 


bipush1 
bipush2 
bipush3 
iload1 
iload2 
iload3 
iload4 
iload5 
istorel 
istore2 
istore3 
istore4 
istore5 
istore6 
widel 

wide2 

wide iload1l 
wide_iload2 
wide_iload3 
wide_iload4 
wide_istore] 
wide_istore2 
wide_istore3 
wide_istore4 
Ide_wl 
Ide_w2 
Ide_w3 
ldc_w4 
iincl 

iinc2 

iinc3 

iinc4 

iinc5 

iinc6 

gotol 

goto2 

goto3 

goto4 

goto5 

goto6 

ifitl 

iflt2 

ifit3 

iflt4 

ifeql 

ifeq2 

ifeq3 

ifeq4 


操 作 
SP=MAR=SP+1 
PC = PC + 1; fetch 
MDR = TOS = MBR; wr; goto Mainl 
H=LV 
MAR = MBRU + H; rd 
MAR = SP=SP+1 
PC = PC + 1; fetch; wr 
TOS = MDR; goto Mainl 
H=LV 
MAR = MBRU +H 
MDR = TOS; wr 
SP = MAR = SP— 1; rd 
PC = PC + 1; fetch 
TOS = MDR; goto Mainl 
PC = PC + 1; fetch; 
goto (MBR OR 0x100) 
PC = PC + 1; fetch 
H = MBRU << 8 
H = MBRU OR H 
MAR = LV + H; rd; goto iload3 
PC = PC + 1; fetch 
H=MBRU << 8 
H = MBRU OR H 
MAR = LY + H; rd; goto istore3 
PC =PC + 1; fetch 
H = MBRU << 8 
H=MBRU OR H 
MAR = H + CPP; rd; goto iload3 
H=LV 
MAR = MBRU + H; rd 
PC = PC + 1; fetch 
H=MDR 
PC = PC + 1; fetch 
MDR = MBR + H; wr; goto Main1 
OPC = PC -1 
PC = PC + 1; fetch 
H = MBR << 8 
H=MBRU OR H 
PC = OPC + H; fetch 
goto Mainl 
MAR = SP= SP- 1; rd 
OPC = TOS 
TOS = MDR 
N = OPC; if (N) goto T; else goto F 
MAR = SP= SP- 1; rd 
OPC = TOS 
TOS = MDR 
Z = OPC; if (Z) goto T; else goto F 


图 4-17 (4) 


HAF 


it g 
MBR 赋值 为 将 要 压 人 栈 的 字 节 
PC 加 1; 取 下 一 个 操作 码 
对 常量 进行 符号 扩展 并 压 人 栈 
MBR 中 包含 索引 ; 把 LV NE] HP 
MAR 一 要 保存 的 局 部 变量 的 地 址 
SP 指向 新 的 栈 项 ， 谁 备 写 
PC 加 1; 取 下 一 个 操作 码 ; 写 人 栈 顶 
修改 TOS 
MBR 中 包含 索引 ; 把 LV HU A 
MAR 王 要 读 人 的 局 部 变量 的 地 址 
TOS 拷贝 到 MDR 中 ; 写 人 该 字 
读 入 栈 中 栈 顶 之 下 的 字 
PC 加 1; 取 下 一 个 操作 码 
修改 TOS 
读 操作 数字 节 或 下 一 个 操作 码 
根据 最 高 位 的 设置 多 路 转移 
MBR 包括 第 一 个 索引 字 节 ; 取 第 二 个 
H = 第 一 个 索引 字 节 左 移 8 位 
H = 局 部 变量 的 16 位 索引 值 
MAR = 要 和 人 栈 的 局 部 变量 的 地 址 
MBR 包括 第 一 个 索引 字 节 ; 取 第 二 个 
H = 第 一 个 索引 字 节 左 移 8 位 
H = 局 部 变量 的 16 位 索引 值 
MAR = 要 存 人 的 局 部 变量 的 地 址 
MBR 包括 第 一 个 索引 字 节 ; 取 第 二 个 
H = 第 一 个 索引 字 节 左 移 八 8 位 
H = 常量 池 的 16 位 索引 值 
MAR = 常量 在 常量 池 中 的 地 址 
MBR 包含 索引 值 ; 把 LV 拷贝 到 五 中 
把 LV+index 拷贝 到 MAR 中 ; 读 人 变量 
取 常 量 
把 变量 拷贝 到 H 中 
取 下 一 个 操作 码 
把 和 放 人 MDR; 修改 变量 
保存 操作 码 地 址 
MBR = 第 一 个 字 节 的 偏 移 量 ; 取 第 二 个 字 节 
把 带 符号 的 第 一 个 字 节 左 移 并 保存 在 H 中 
H = 16 位 的 转移 偏 移 量 
把 偏 移 量 加 到 OPC 上 
等 待 取 下 一 个 操作 码 
读 和 人 栈 中 栈 顶 之 下 的 字 
把 TOS 临时 保存 在 OPC 中 
把 新 的 栈 项 放 人 TOS 
根据 N 位 转移 
读 入 栈 中 栈 顶 之 下 的 字 
把 TOS 临时 保存 在 OPC 中 
把 新 的 栈 顶 放 人 TOS 
根据 Z 位 转移 
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标 号 
if_icmpeq] 
if_icmpeq2 
if_icmpeq3 
if_icmpeq4 
if_icmpeq5 
if_icmpeq6 


F3 


invokevirtual1 
invokevirtual2 
invokevirtual3 
invokevirtual4 
invokevirtual5 
invokevirtual6 
invokevirtual7 
invokevirtual8 
invokevirtual9 
invokevirtual10 
invokevirtual1 1 
invokevirtual12 
invokevirtual13 
invokevirtual14 
invokevirtuall5 
invokevirtual16 
invokevirtual17 
invokevirtual18 
invokevirtual19 
invokevirtual20 
invokevirtual21 
invokevirtual22 


ireturn] 
ireturn2 
ireturn3 
ireturn4 
ireturnS 
ireturn6 
ireturn7 
ireturn8 


操 
MAR = SP = SP-1; rd 
MAR = SP= SP -1 
H = MDR; rd 
OPC = TOS 
TOS = MDR 


Z = OPC — H; if (Z) goto T; else goto F 
OPC = PC - 1; fetch; goto goto2 


PC=PC+1 
PC =PC + 1; fetch 
goto Mainl 


PC =PC + 1; fetch 

H = MBRU << 8 

H = MBRU OR H 
MAR = CPP + H; rd 
OPC=PC+1 

PC= MAR; fetch 
PC = PC + 1; fetch 
H=MBRU <<8 

H = MBRU OR H 
PC = PC + 1; fetch 
TOS = SP-H 

TOS = MAR = TOS +1 
PC = PC + 1; fetch 

H = MBRU << 8 

H = MBRU OR H 
MDR = SP+H +1; wr 
MAR = SP = MDR 
MDR = OPC; wr 
MAR =SP=SP+1 
MDR = LV; wr 

PC = PC + 1; fetch 
LV = TOS; goto Main1 


MAR = SP = LV; rd 


LV = MAR = MDR; rd 
MAR=LV+1 

PC = MDR; rd; fetch 
MAR = SP 

LV = MDR 


MDR = TOS; wr; goto Main! 


图 4-17 (4) 


it 8 
BAB PRIS FHF 
设置 MAR 为 刚 读 和 人 的 新 的 栈 顶 


把 第 二 个 栈 顶 字 拷 贝 到 了 中 
把 TOS 临时 保存 在 OPC 中 
把 新 的 栈 顶 保存 在 TOS 中 


195 


如 果 栈 顶 的 两 个 字 相 等 ，goto T， 否 则 goto F 


和 gotol 一 样 ， 只 是 由 于 目标 地 址 的 需要 


跳 过 第 一 个 偏 移 量 字 节 
PC 现在 指向 新 的 操作 码 
等 待 取 操作 码 


MBR 等 于 第 一 个 索引 字 节 ，PC 加 1， 取 第 二 个 字 节 


左 移 第 一 个 索引 字 节 并 保存 在 互 中 


H = 从 CPP 中 得 到 的 方法 指针 的 偏 移 量 


从 CPP 字段 获得 方法 指针 

把 返回 的 PC 临时 保存 在 OPC 中 
PC 指向 新 的 方法 ; 取得 参数 的 个 数 
取 参 数 个 数 的 第 二 个 字 节 

移 位 并 把 第 一 个 字 节 保存 在 也 中 

H 一 参数 的 个 数 

取 # locals 的 第 一 个 字 节 

TOS = OBJREF 的 地 址 -1 

TOS = OBJREF 的 地 址 (新 的 LV ) 
KL # locals 的 第 二 个 字 节 

移 位 并 把 第 一 个 字 节 保存 在 互 中 

H =# locals 

用 链接 指针 覆盖 OBJREF 


设置 SP，MAR 指向 保存 旧 的 PC 的 位 置 


在 局 部 变量 之 上 保存 原来 的 PC 
SP 指向 保存 原 有 LV 的 位 置 

在 保存 的 PC 之 上 保存 原来 的 LV 
取 新 方法 的 第 一 个 操作 码 

设置 LV 指向 LV 段 

重 置 SP，MAR 获得 链接 指针 
等 待 读 完成 


把 LV 设置 为 链接 指针 ; 取得 原 有 的 PC 


设置 MAR 以 读 取 原 有 的 LV 
重 置 PC; 取 下 一 个 操作 码 
设置 MAR SA TOS 
BSLV 

把 返回 值 保存 在 原来 的 栈 顶 


现在 可 以 看 出 图 4-1 中 大 多 数 寄存 器 名 称 的 来 历 了 : CPP. LV 和 SP 分 别 是 指向 常量 池 、 
局 部 变量 结构 和 栈 顶 的 指针 ， 而 PC 是 指令 流 中 下 一 个 字 节 的 地 址 。MBR 寄存 器 保存 来 自 内 
存 中 的 指令 流 的 一 个 等 待 解释 执行 的 字 节 。TOS 和 OPC 是 额外 的 寄存 器 。 后 面 会 讨论 它们 的 
FAR. 

在 特定 的 时 刻 ， 这 些 寄存 器 都 必须 保证 保存 特定 的 值 ， 但 是 如 果 需 要 ， 它 们 也 可 以 用 作 
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临时 寄存 器 。 在 每 条 指令 开始 和 结束 时 ，TOS 都 保存 SP 指向 的 内 存 位 置 的 值 ， 也 就 是 栈 顶 部 
的 字 。 这 个 值 是 多 余 的 ， 因 为 它 随时 可 以 从 内 存 读 出 ， 但 是 把 它 保存 在 寄存 器 中 可 以 节省 内 
存 访问 次 数 。 然 而 对 少数 指令 来 说 ， 保 存 TOS 却 意味 着 需要 更 多 的 内 存 操作 。 例 如 ，Ppop 指 
令 弹 出 栈 顶 的 字 ， 因 此 必须 从 内 存 中 取出 新 的 栈 顶 字 存 人 TOS. 

OPC 寄存 器 是 一 个 临时 寄存 器 。 它 没有 固定 的 用 途 。 例 如 ， 当 PC 加 1 以 便 访 问 参数 
时 ， 它 可 以 用 来 保存 转移 指令 操作 码 的 地 址 。 它 还 可 以 在 LVM 的 条 件 转移 指令 中 充当 临时 
寄存 器 。 

和 所 有 的 解释 器 一 样 ， 图 4-17 中 的 微 程 序 也 有 一 个 主 循环 ， 它 取 指 、 译 码 、 执 行程 序 中 
的 指令 ， 这 里 的 程序 也 就 是 JVM 指令 。 主 循环 的 起 点 是 标号 为 Mainl 的 行 。 主 循环 开始 时 ， 
PC 已 经 指向 包含 操作 码 的 内 存 地 址 。 然 后 ， 操 作 码 将 被 读 人 到 MBR。 请 注意 ， 这 里 隐 含 的 
一 点 是 当 我 们 返回 这 条 微 指令 时 ，PC 必须 指向 下 一 条 待 解释 的 操作 码 而 且 操 作 码 字 节 应 该 已 
ZIA MBR。 

这 一 初始 化 指令 序列 在 每 条 指令 开始 时 都 要 执行 ， 因 此 它 越 短 越 好 。 通 过 精心 地 设计 
Mic-1 的 硬件 和 软件 ， 我 们 已 经 把 主 循环 缩 短 到 只 有 一 条 微 指 令 。 当 计算 机 启动 之 后 ,每 次 
执行 这 条 微 指 令 时 ， 下 一 条 将 要 执行 的 IJVM 操作 码 已 经 保存 在 MBR 中 了 。 这 条 微 指令 完成 
的 功能 是 跳 转 到 执行 JVM 指令 的 相应 的 微 指令 处 并 开始 取 操 作 码 之 后 的 下 一 个 字 节 ， 这 个 
字 节 可 能 是 操作 数 ， 也 可 能 是 下 一 条 指令 的 操作 码 。 

现在 我 们 可 以 解释 为 什么 不 顺序 地 执行 微 指令 而 是 由 每 条 微 指 令 指 出 它 的 下 一 条 微 指 令 
的 地 址 。 所 有 对 应 指令 操作 码 的 控制 存储 器 地 址 必须 被 保留 ， 作 为 指令 解释 序列 的 第 一 个 字 。 
因此 从 图 4-11 中 我 们 可 以 看 出 解释 POP 的 代码 从 0x57 开始 而 解释 DUP 的 代码 从 0x59 开始 
(MAL 是 怎么 知道 把 POP 指令 放 在 0x57 的 呢 ? 也 许 是 某 个 文件 告诉 它 的 吧 )。 

不 幸 的 是 ， 解 释 POP 指令 的 微 指令 是 三 条 长 指令 ， 因 此 如 果 把 它们 放 在 连续 的 地 址 中 ， 
将 影响 DUP 的 第 一 条 微 指令 。 由 于 对 应 于 操作 码 的 控制 存储 器 地 址 都 是 被 保留 的 ， 因 此 除了 
指令 序列 中 的 第 一 条 微 指令 之 外 的 其 他 微 指 令 就 必须 塞 在 这 些 保留 的 微 指令 形成 的 洞 中 。 由 
于 这 一 原因 ， 需 要 执行 大 量 的 跳 转 ， 因 此 如 果 采 用 显 式 的 微 跳 转 ( 执行 跳 转 的 微 指 令 ) 每 隔 
几 条 微 指 令 就 会 发 生 一 次 跳 转 ， 这 显然 相当 浪费 。 

为 了 理解 解释 器 的 工作 原理 ， 请 看 下 面 的 例子 ， 我 们 假定 MBR 的 值 是 0x60， 也 就 是 
IADD 指令 的 操作 码 (参见 图 4-11 )。 主 循环 的 微 指 令 将 完成 下 面 三 项 功能 : 

1) PC 加 1， 让 它 指 向 操作 码 之 后 的 第 一 个 字 节 的 地 址 。 

2) 启动 把 下 一 个 字 节 读 入 MBR 的 内 存 操作 。 这 个 字 节 迟早 会 用 到 ， 它 或 者 是 当前 
UVM 指令 的 操作 数 或 者 是 下 一 条 指令 的 操作 码 (IADD 指令 就 是 这 种 情况 ， 它 不 带 操作 数 )。 

3) 执行 多 路 转移 ， 跳 转 到 Mainl 起 始 处 MBR 指向 的 地 址 。 该 地 址 和 正在 执行 的 操作 码 
的 数值 是 相等 的 。 它 是 由 前 面 的 微 指令 读 出 的 。 必 须 注意 ， 本 条 微 指 令 读 出 的 值 对 多 路 转移 
没有 任何 影响 。 

取 下 一 个 字 节 的 操作 是 由 本 条 微 指令 启动 的 ， 因 此 取出 的 值 直到 第 三 条 微 指 令 开 始 时 才 
可 用 。 第 三 条 微 指令 可 能 会 用 到 它 ， 也 可 能 不 用 ， 但 是 这 个 值 迟 早 会 用 到 ， 因 此 这 时 启动 读 
操作 码 没 有 任何 坏处 。 

如 果 MBR 中 的 字 节 碰巧 是 全 0， 那 就 是 NOP 指令 的 操作 码 ， 这 时 标号 nopl 的 微 指 令 就 
是 下 一 条 微 指 令 ， 它 位 于 地 址 0。 这 条 指令 不 执行 任何 操作 ， 它 只 是 跳 回 主 循环 的 开始 ， 然 
后 重新 执行 主 循环 ， 不 过 这 时 MBR 中 已 经 是 新 的 操作 码 了 。 
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再 强调 一 次 ， 图 4-17 中 的 微 指令 在 控制 存储 器 中 并 不 是 连续 的 ， 而 且 Main! 也 不 在 控制 
存储 器 的 地 址 0 处 (因为 nopl 必须 位 于 地 址 0)。 由 微 汇编 器 负责 把 微 指 令 放 到 合适 的 地 址 
并 使 用 NEXT_ADDRESS 字段 把 它们 连接 成 短 序列 。 每 个 序列 都 从 和 IVM 操作 码 值 相同 的 
地 址 开始 ( 例如 ，POP 指令 从 0x57 开始 ), 但 是 后 续 微 指令 就 可 能 位 于 控制 存储 器 的 任意 位 
置 ， 而 且 并 不 一 定 是 连续 的 。 

现在 ， 我 们 来 看 看 IVM 的 IADD 指令 。 主 循环 跳 转 到 标号 为 iaddl 的 微 指令 处 。 这 条 指 
令 的 工作 过 程 如 下 : 

1) TOS 寄存 器 已 经 有 内 容 了 ， 但 是 还 需要 把 栈 中 栈 顶 之 下 的 字 从 内 存 中 读 出 。 

2) 把 TOS 和 刚才 从 栈 中 读 出 的 字 相 加 。 

3) 把 结果 压 人 栈 ， 也 就 是 存 信 内存， 同时 还 要 把 结果 存 人 TOS 寄存 器 。 

为 了 从 内 存 中 取 操 作 数 ， 需 要 把 栈 指 针 减 1 并 把 它 写 人 MAR。 请 注意 ， 该 地 址 也 是 后 面 
的 写 操作 将 要 用 到 的 地 址 。 另 外 ， 由 于 该 位 置 是 新 的 栈 顶 ， 因 此 SP 的 值 也 应 该 相应 改变 。 
此 我 们 使 用 了 一 条 微 指令 来 为 SP H MAR 赋 新 值 ， 首 先 将 SP 减 1， 然 后 把 结果 同时 写 回 这 
两 个 寄存 器 。 

上 面 的 这 些 操 作 是 在 LADD 指令 的 第 一 个 周期 add 中 完成 的 ， 该 周期 中 还 启动 了 读 操 
作 。 另 外 ，MPC 变 成 了 iaddl 的 NEXT_ADDRESS 字段 的 值 ， 也 就 是 iadd2 的 地 址 ， 该 地 址 
可 能 位 于 控制 存储 器 的 任何 地 方 。 然 后 从 控制 存储 器 中 读 出 iadd2。 在 第 二 个 周期 中 ,我们 需 
要 等 待 从 内 存 中 读 出 操作 数 ， 与 此 同时 ， 我 们 把 栈 顶 的 字 从 TOS 拷贝 到 也， 这 样 当 读 操 作 完 
成 之 后 就 可 以 立即 使 用 卫 寄存 器 用 于 加 法 操作 。 

在 第 三 个 周期 iadd3 开始 的 时 候 ，MDR 中 是 从 内 存 中 取得 的 加 数 。 在 这 个 周期 中 ,MDR 
和 互 中 的 内 容 相 加 ， 结 果 同 时 存 回 MDR 和 TOS。 还 要 启动 写 操作 ， 把 新 的 栈 顶 字 写 回 内 存 。 
这 个 周期 中 goto 的 作用 是 为 MPC 分 配 Mainl 的 地 址 ， 这 样 我 们 就 返回 了 主 循环 ; 到 了 执行 
下 一 条 指令 的 起 点 。 

如 果 MBR 中 的 下 一 条 IJVM 操作 码 是 0x64 (ISUB )， 那 么 它 执行 的 操作 序列 几乎 和 
IADD 完全 相同 。Mainl 执行 完成 后 ， 控 制 权 转 交 给 地 址 0x64 (isubl ) 处 的 微 指令 。 之 后 是 
微 指令 isub2 和 isub3， 然 后 再 次 回 到 Main1。 这 两 个 微 指 令 序列 唯一 的 区 别 在 于 isub3， 前 一 
个 微 指令 序列 在 isub3 中 执行 的 操作 是 把 H 寄存 器 的 值 从 MDR 中 减 去 而 不 是 相 加 。 

IAND 的 解释 过 程 也 几乎 和 IADD、ISUB 相同 ， 区 别 在 于 它 是 把 栈 顶 的 两 个 字 按 位 与 而 
不 是 相 加 或 相 减 。IOR 指令 也 基本 类 似 。 

如 果 要 执行 的 IJVM 指令 是 DUP、POP 或 者 是 SWAP， 那 就 必须 调整 栈 。DUP 指令 简单 
地 拷贝 栈 顶 的 值 。 由 于 栈 顶 值 已 经 保存 在 TOS 寄存 器 中 了 ， 因 此 它 的 操作 很 简单 ， 把 SP 加 
1， 使 它 指向 新 的 位 置 ， 然 后 把 TOS 存 人 该 位 置 。POP 指令 也 很 简单 ， 它 对 SP 减 1， 这 样 就 
可 以 抛弃 栈 顶 的 值 。 但 是 ， 为 了 使 TOS 中 保存 的 是 栈 顶 的 值 ， 它 还 需要 从 内 存 中 读 人 新 的 栈 
顶 值 并 写 入 TOS。 最 后 是 SWAP 指令 ， 它 执行 的 操作 是 交换 栈 顶 的 两 个 内 存 位 置 的 值 。 由 于 
TOS 中 已 经 是 栈 顶 的 值 了 ， 因 此 不 需要 再 读 了 ， 这 一 特点 简化 了 这 条 指令 的 实现 。 后 面 我 们 
将 详细 讨论 这 条 指令 。 

BIPUSH 指令 稍微 有 点 复杂 ， 它 的 操作 码 后 面 还 有 一 个 字 节 ， | oo | BYTE 
如 图 4-18 所 示 。 该 字 节 表示 一 个 带 符号 整数 。 在 Mainl 周期 中 ， 
这 个 字 节 已 经 被 取 到 了 MBR 中 ， 这 个 字 节 将 被 符号 扩展 到 32 位 
然后 压 入 栈 。 因 此 ， 它 的 微 指 令 序列 执行 的 操作 是 把 MBR 中 的 字 节 符号 扩展 到 32 位 ， 然 后 





图 4-18 BIPUSH 指令 格式 
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把 它 拷贝 到 MDR 中 。 最 后 , 将 SP 加 1 并 拷贝 到 MAR 中 ， 这 样 就 可 以 把 操作 数 压 人 栈 项 了 。 
使 用 这 种 方式 时 ， 操 作 数 还 必须 被 拷贝 到 TOS 中 。 另 外 ， 必 须 注意 ， 在 返回 主 程序 之 前 ，PC 
必须 加 1。 这 样 当 返回 Mainl 时 ， 就 可 以 执行 下 一 条 操作 码 。 

下 面 来 看 看 IOAD 指令 。ILOAD 指令 的 操作 码 后 面 也 有 一 个 字 节 ， 如 图 4-19a 所 示 ， 
这 个 字 节 是 一 个 指向 局 部 变量 结构 的 指针 ， 它 所 指 的 局 部 变量 将 被 压 和 人 栈 。 因 为 只 有 一 个 
字 节 ， 因 此 只 能 区 分 2 = 256 个 字 ， 也 就 是 说 ， 只 能 区 分 局 部 变量 结构 中 的 前 256 个 字 。 
ILOAD 指令 既 需 要 读 (从 内 存 中 获得 一 个 字 ) 又 需要 写 ( 把 该 字 压 人 栈 顶 )。 为 了 决定 读 操 
作 的 地 址 ，MBR 中 的 偏 移 量 将 和 LV 保存 的 值 相 加 。 由 于 MBR 和 LV 都 只 能 通过 B 总 线 访 
间 ， 所 以 LV 将 首先 拷贝 到 五 寄存 器 中 (在 iloadl 周期 中 )， 然 后 再 和 MBR 相 加 。 加 法 的 结 
果 将 存 人 MAR 然后 启动 读 操 作 (iload2 周期 )。 

但 是 ， 作 为 索引 的 MBR 的 用 法 和 BIPUSH 有 所 不 同 ，BIPUSH 指令 中 的 MBR 是 符号 
扩展 的 。 作 为 索引 使 用 时 ， 偏 移 量 总 是 正 的 ， 因 此 字 节 偏 移 量 必须 被 解释 成 无 符号 整数 ， 这 
一 点 和 BIPUSH 不 同 ，BIPUSH 指令 中 把 MBR 的 值 解 释 成 一 个 带 符 号 的 8 位 整数 。MBR 
Al B 总 线 之 间 的 接口 是 经 过 精心 设计 的 ， 因 此 这 两 种 操作 都 是 允许 的 。BIPUSH 需要 使 用 带 
符号 扩展 的 运算 ， 因 此 ，MBR 的 最 高 位 将 被 拷贝 到 B 总 线 的 高 24 位 。 而 亚 OAD 指令 需要 
使 用 无 符号 的 8 位 整数 ， 那 么 合适 的 做 法 是 使 B 总 线 的 高 24 位 全 是 0。 这 两 种 操作 是 通过 
指明 将 要 执行 的 操作 的 信号 来 区 分 的 (请 参见 4-6 )。 在 微 码 中 ，MBR 表示 带 符号 扩展 (如 
BIPUSH3 ), MBRU 表示 无 符号 整数 (如 iload2 )。 

在 等 待 内 存 提供 操作 数 (iload3 ) 的 同时 ，SP 加 1 以 便 指向 新 的 栈 顶 (保存 着 结果 值 )。 
该 值 同 时 也 将 被 拷贝 到 MAR 中 ， 为 把 操作 数 写 人 栈 顶 做 准备 。 同 时 PC 再 次 被 加 1 以 取得 下 
一 条 指令 的 操作 码 (在 iload4 周期 中 )。 最 后 , MDR 拷贝 到 TOS 中 以 指向 新 的 栈 顶 (iload5 )。 

ISTORE 指令 和 ILOAD 的 操作 相反 ,也 就 是 说 ， 它 把 一 个 字 从 栈 顶 弹出 并 存 人 由 LV 和 
指令 中 的 索引 值 之 和 决定 的 内 存 位 置 。 它 的 格式 和 ILOAD 相同 ， 如 图 4-19a 所 示 ， 只 不 过 操 
作 码 从 0x15 变 成 了 0x36。 这 条 指令 可 能 和 你 想象 的 有 点 不 同 ， 因 为 栈 顶 的 字 是 已 知 的 (已 
经 在 TOS 中 了 )， 这 样 就 可 以 立即 把 它 保存 到 内 存 中 。 但是， 还 必须 从 内 存 中 取得 新 的 栈 顶 
值 。 因 此 ， 也 同时 需要 读 操作 和 写 操 作 ， 只 不 过 它们 可 以 以 任意 次 序 执行 (如果 有 可 能 ， 其 
至 可 以 并 行 执行 )。 

ILOAD 和 ISTORE 指令 是 受 限制 的 ， 它 们 都 只 能 访问 前 256 个 局 部 变量 。 虽 然 对 大 多 数 
程序 来 说 ， 这 么 大 的 局 部 变量 空间 已 经 足够 了 ,但 是 我 们 必须 有 能 够 访问 位 于 局 部 变量 结构 
的 任意 位 置 的 变量 的 方法 。 为 了 做 到 这 一 点 ，IJVM 使 用 了 和 JVM 相同 的 机 制 : 使 用 特殊 的 
操作 码 WIDE， 它 是 一 个 前 缀 字 节 (prefix byte )， 后 面 跟 的 是 IOAD 和 ISTORE 操作 码 。 当 
执行 带 WIDE 前 级 的 指令 时 ，ILOAD Al ISTORE 的 指令 格式 就 不 同 了 ， 它 们 在 操作 码 之 后 将 
使 用 16 位 的 索引 值 而 不 是 8 位 的 ， 如 图 4-19b 所 示 。 


ILOAD INDEX WIDE ILOAD INDEX INDEX 
(0x15) COxC4) (0x15) BYTE 1 BYTE 2 
a) 带 一 个 字 节 索引 值 的 ILOAD b) 带 两 个 字 节 索引 值 的 WIDE ILOAD 


图 4-19 


WIDE 使 用 通常 的 方式 译 码 ， 当 执行 到 WIDE 操作 码 时 将 跳 转 到 widel 处 。 虽 然 加 宽 后 的 
操作 码 已 经 在 MBR 中 了 ， 但 widel 仍然 要 取 操 作 码 之 后 的 第 一 个 字 节 ， 因 为 微 程序 的 逻辑 就 





th th RAP 199 





是 这 样 设计 的 。 因 此 ， 必 须 执行 第 二 次 多 路 转移 ( wide2 )， 这 次 使 用 的 是 WIDE 之 后 的 字 节 。 
但 是 ， 由 于 WIDE ILOAD 需要 的 微 码 和 ILOAD 不 同 ，WIDE ISTORE 需要 的 微 码 和 ISTORE 
也 不 同 ， 因 此 第 二 次 多 路 跳 转 不 能 使 用 操作 码 作为 目标 地 址 (这 是 Mainl 采取 的 方式 )。 

wide2 阶段 将 把 操作 码 和 0x100 相 或 ， 然 后 地 址 控制 存储 
把 结果 存 人 MPC。 因 此 ,WIDE ILOAD 的 微 指 oxi FF 








令 就 从 0xl15 开 始 ， 而 不 是 0x15。 同 样 ，WIDE Spak 
ISTORE 指令 的 微 码 从 0x136 开始 ， 而 不 是 0x36， ye 
依次 类 推 。 采 用 这 种 方式 ， 每 条 WIDE 指令 都 位 于 ILOAD ILOAD 





比 相 应 的 正常 操作 码 高 256 个 字 (也 就 是 0x100 ) oxl15 
的 控制 存储 器 地 址 中 。ILOAD 和 WIDE ILOAD 指 
令 的 初始 微 指 令 序列 如 图 4-20 所 示 。 

完成 上 述 动作 后 ， 实 现 WIDE ILOAD (0x115) 
指令 的 微 码 和 正常 的 于 OAD 指令 的 微 码 的 唯一 的 。 0xc4 
KIEF: 它 的 索引 必须 使 用 连续 的 两 个 索引 字 节 
而 不 是 使 用 符号 扩展 的 单字 节 。 两 个 字 节 的 连接 和  ox15 
加 法 运算 必须 分 阶段 进行 ， 首 先 把 INDEX BYTE! tead ei 
拷贝 到 HAF PIAS 8 位。 由 于 索引 是 无 符号 。 0x00 
整数 ，MBR 的 值 就 是 零 扩 展 后 的 MBRU。 然后 把 ”图 4-20 用 于 ILAOD 和 WIDEILOAD 的 初始 
第 二 个 字 节 加 上 (加 法 运算 和 连接 操作 是 等 价 的 ， 微 指 令 序列 。 地 址 是 随机 举 的 例子 
AA H ÉR 8 位 是 0， 这 样 可 以 保证 字 节 之 间 不 产生 进位 )， 结 果 仍 然 保 存在 正中。 从 这 时 起 
的 操作 就 和 标准 的 ILOAD 操作 一 样 了 。 因 此 ， 我们 并 没有 重复 编写 ILOAD 指令 的 最 后 3 条 
微 指令 (iload3 ~ iload5 )， 而 是 直接 从 wide iload4 跳 转 到 iload3。 请 注意 ， 在 执行 该 指令 的 
过 程 中 ，PC 必须 两 次 加 1 这 样 可 以 使 它 指向 下 一 个 操作 码 。ILOAD 指令 对 PC 加 了 一 次 1, 
WIDE_ILOAD 指令 也 对 PC 加 了 一 次 1。 

WIDE ISTORE 指令 和 WIDE ILOAD 指令 的 情况 与 之 类 似 : 在 执行 完 WIDE _ ISTORE 的 
前 四 条 微 指令 (wide istorel ~ wide istore4 ) 后 ， 其 剩余 的 微 指令 序列 和 ISTORE 指令 从 第 
三 条 微 指令 开始 的 微 指令 序列 完全 相同 ， 因 此 wide istore4 就 直接 跳 转 到 了 istore3 。 

接 下 来 我 们 来 看 看 LDC_W 指令 。 该 指令 和 于 OAD 指令 有 两 处 区 别 。 首 先 ， 它 使 用 的 是 
16 位 的 无 符号 的 偏 移 量 ( 和 ILOAD 指令 的 扩展 版 本 一 样 )。 其 次 ， 它 使 用 CPP 作为 索引 而 不 
是 LV， 因 此 它 从 常量 池 中 取 数 据 而 不 是 从 局 部 变量 结构 中 取 数 据 。( 实际 上 ， 还 有 一 种 短 格 
式 的 LDC_W 指令 : LDC， 但 是 在 JJVM 中 ， 我 们 没有 使 用 这 条 指令 ， 因 为 LDC_W 已 经 包 
含 了 所 有 短 格式 的 指令 ， 只 不 过 使 用 了 3 个 字 节 而 不 是 短 格式 使 用 的 两 个 字 节 。 ) 

INC 指令 是 IJVM 中 除了 ISTORE 指令 之 外 唯 


一 能 够 修改 局 部 变量 的 指令 。 它 使 用 两 个 操作 数 ， 
每 个 操作 数 一 个 字 节 。 如 图 4-21 所 示 。 re 


INC 指令 使 用 INDEX 定义 从 局 部 变量 结构 的 。 图 4-21 有 两 个 不 同 的 操作 数字 段 的 
起 点 开始 计算 的 偏 移 量 。 它 读 取 该 变量 ， 并 把 指令 IINC 指令 
中 的 CONST 加 到 该 变量 上 ， 然 后 把 它 存 回 原来 的 位 置 。 请 注意 ， 这 条 指令 可 以 用 负数 作为 
增 量 ， 也 就 是 说 ，CONST 是 带 符号 的 8 位 常量 ， 取 值 范围 从 -128 ~ 127。 完 整 的 JVM 中 还 
包括 扩展 格式 的 INC 指令 ， 它 的 每 个 操作 数 都 是 两 个 字 节 。 


wide_iload1 


Mainl 
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现在 我 们 来 看 看 UVM 中 的 第 一 条 转移 指令 : GOTO. GOTO 指令 的 唯一 功能 是 改变 PC 
的 值 ， 它 把 带 符号 的 16 位 偏 移 量 和 本 条 指令 的 地 址 相 加 来 决定 将 要 执行 的 下 一 条 IJVM 指令 
的 地 址 。 该 指令 的 复杂 之 处 在 于 它 的 偏 移 量 是 相对 于 指令 译 码 开始 时 的 PC 值 的 ， 而 不 是 又 
读 取 了 两 个 字 节 之 后 的 PC 值 。 

为 了 清楚 地 说 明 这 一 点 ， 请 看 图 4-22a， 我 们 可 以 看 到 从 Main! 开始 执行 的 情况 。 这 
时 操作 码 已 经 在 MBR 中 了 ,但 是 PC 还 没有 加 1。 图 4-22b 是 执行 到 gotol 时 的 情况 。 这 
时 PC 已 经 加 1， 但 第 一 个 偏 移 量 字 节 还 没有 存 人 MBR。 又 执行 了 一 条 微 指令 之 后 ， 就 到 
了 图 4-22c， 这 时 保存 操作 码 的 原来 的 PC 已 经 保存 在 OPC 中 了 ,而 且 偏 移 量 的 第 一 个 字 
节 已 经 存 人 MBR。 计 算 IJVM 的 GOTO 指令 的 偏 移 量 时 就 使 用 该 值 而 不 是 当前 PC 的 值 。 
实际 上 ， 这 也 是 我 们 需要 OPC 寄存 器 的 第 一 个 原因 。 

微 指令 goto2 启动 取 第 二 个 偏 移 量 字 节 的 操作 ， 这 样 当 goto3 微 指令 开始 时 面 对 的 就 是 
图 4-22d。 这 条 微 指令 将 把 第 一 个 偏 移 量 字 节 左 移 8 位 并 拷贝 到 了 HH 寄存 器 中 ,然后 就 将 开始 
执行 goto4 微 指令 ， 如 图 4-22e ta. ME, BSB RS TAB CARA HH, BH 
二 个 偏 移 量 字 节 在 MBR 中 ， 基 变量 在 OPC 中 。 首 先 把 两 个 字 节 的 偏 移 量 拼 成 一 个 完整 的 
16 位 偏 移 量 ， 然 后 再 把 它 加 到 基 变 量 中 ， 就 可 以 得 到 将 存 人 PC 的 新 地 址 ， 这 是 goto5 执行 
的 操作 。 必 须 注 意 ， 在 goto4 中 我 们 使 用 的 是 MBRU 而 不 是 MBR， 因 为 我 们 不 需要 对 第 二 
个 字 节 进行 符号 扩展 。 连 接 两 个 单字 节 的 偏 移 量 的 过 程 实 际 上 是 通过 OR 运算 实现 的 。 最 
后 ， 在 返回 Mainl 之 前 ， 我 们 必须 取出 下 一 条 指令 的 操作 码 因 为 下 一 条 指令 的 操作 码 并 不 在 
MBR 中 。 最 后 一 个 周期 的 goto6 是 必需 的 ， 因 为 取 内 存 数据 是 需要 时 间 的 ， 经 过 这 个 周期 之 
后 执行 Mainl 时 ， 需 要 的 操作 码 就 已 经 在 MBR 中 了 。 
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图 4-22 不 同 的 微 指 令 开始 执行 时 的 情况 



































goto IJVM 指令 中 使 用 的 偏 移 量 是 16 位 带 符号 整数 ， 最 小 值 为 -32 768， 最 大 值 为 +32 767。 
这 意味 着 不 可 能 跳 转 到 比 这 些 值 更 远 的 标号 处 。 你 可 以 把 这 一 特点 看 成 是 一 个 bug 或 者 是 
IVM 提供 的 特性 ( 当然 ， 也 包括 JVM )。bug 阵营 的 人 认为 JVM 定义 不 应 该 限制 程序 员 的 编 
程 模 式 。 而 特性 阵营 的 人 认为 如 果 程 序 员 看 到 下 面 这 样 的 编译 器 信息 就 意味 着 他 编写 的 程序 应 
该 进行 大 的 改进 : 

程序 太 长 让 人 担心 。 你 必须 重新 编写 。 编 译 过 程 中 止 。 
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不 幸 的 是 ( 从 我 们 的 观点 来 看 )， 当 then 或 者 else 语句 超过 32KB AY ( 至少 50 + Java 页 
面 ) 就 会 出 现 这 样 的 编译 信息 。 

下 面 讨 论 另 外 三 条 VM 条 件 转移 指令 : IFLT、IFEQ 和 IF_ ICMPEQ。 前 两 条 指令 从 栈 
中 弹出 栈 顶 字 ，IFLT 指令 是 当 该 字 小 于 0 时 跳 转 ， 而 下 EQ 指令 是 该 字 等 于 0 时 跳 转 。IF_ 
ICMPEQ 则 从 栈 顶 弹出 两 个 字 ， 如 果 它 们 相等 则 跳 转 。 这 三 条 指令 都 需要 读 出 新 的 栈 顶 字 保 
存在 TOS 中 。 

这 三 条 指令 的 微 指令 流程 是 类 似 的 : 首先 把 操作 数 存 人 寄存 器 ， 然 后 把 栈 顶 的 值 存 人 
TOS， 最 后 测试 并 跳 转 。 先 看 IFLT. IFLT 需要 测试 的 字 已 经 在 TOS 中 了 , 但 是 由 于 IFLT 从 
栈 中 弹出 了 一 个 字 ， 因 此 必须 从 栈 中 弹出 新 的 栈 顶 并 保存 在 TOS 中 。 微 指令 iftl 启动 这 次 读 
操作 。 在 ift2 中 ， 需 要 测试 的 字 被 保存 在 OPC 中 ， 这 样 新 的 值 可 以 保存 在 TOS 中 而 不 会 丢 
失当 前 的 值 。 到 了 iata 时 ， 新 的 栈 顶 值 已 经 在 MDR 中 了 ， 所 以 它 被 拷贝 到 TOS 中 。 最 后 ， 
ift4 周期 测试 OPC 中 的 字 ， 该 字 将 通过 ALU 但 是 并 不 保存 而 只 是 锁 存 并 测试 N 位 。 这 条 微 
指令 还 包括 跳 转 ， 如 果 测 试 成 功 选择 T， 失 败 则 选择 F。 

如 果 测 试 成 功 ， 剩 余 的 操作 和 GOTO 指令 的 起 始 处 基本 相同 ， 它 将 从 GOTO 指令 的 
goto2 微 指令 处 开始 执行 。 如 果 测 试 不 成 功 ， 则 需要 一 个 很 短 的 微 指令 序列 (FE、F2 和 了 F3 ) 来 
跳 过 指令 的 偏 移 量 ， 然 后 返回 Mainl 并 继续 执行 下 一 条 指令 。 

指令 ifeq2 和 ifeq3 的 代码 是 相同 的 ， 只 不 过 ifeq2 使 用 NN 位 而 ifeq3 使 用 Z 位。 无 论 是 
哪 条 指令 ， 都 需要 MAL 的 汇编 器 来 识别 T 和 F 的 地 址 ， 并 保证 这 些 地 址 只 有 最 高 位 不 同 。 

IF_ICMPEQ 的 逻辑 也 和 IFEQ 类 似 ， 不 同 之 处 是 这 条 指令 还 需要 读 第 二 个 操作 数 。 在 诈 
icmpeq3 时 ， 第 二 个 操作 数 将 被 保存 在 H 中 ， 同 时 开始 读 新 的 栈 顶 字 。 同 样 ， 当 前 的 栈 项 值 
将 保存 在 OPC 中 而 新 的 栈 顶 值 保存 在 TOS 中 。 最 后 ，if_ icmpeq6 处 的 测试 类 似 于 ifeq4。 

现在 ,我 们 来 讨论 INVOKEVIRTUAL 和 IRETURN 指令 的 实现 。 在 4.2.3 节 中 曾经 提 到 ， 
这 两 条 指令 分 别 用 于 过 程 调用 和 返回 。INVOKEVIRTUAL 的 微 指 令 序 列 达 22 条 ， 它 是 IJVM 
实现 中 最 复杂 的 指令 。 它 的 操作 如 图 4-12 所 示 。 指 令 使 用 16 位 的 偏 移 量 来 决定 被 调用 的 方 
法 的 地 址 。 在 我 们 的 实现 中 ， 偏 移 量 是 关于 常量 池 的 偏 移 量 。 常 量 池 对 应 于 偏 移 量 的 位 置 上 
保存 了 被 调用 方法 的 地 址 。 回 忆 一 下 ， 每 个 方法 的 前 4 个 字 节 并 不 是 指令 ， 而 是 两 个 16 位 的 
指针 。 第 一 个 指针 给 出 了 参数 字 的 数量 (包括 OBJREF， 参 见 图 4.12 )。 第 二 个 指针 给 出 了 按 
字 计 算 的 局 部 变量 区 的 大 小 。 这 些 字段 都 通过 8 位 的 端口 读 取 并 装配 在 一 起 就 好 像 它们 是 一 
条 指令 中 的 两 个 16 位 偏 移 量 一 样 。 

接 下 来 ， 用 于 恢复 计算 机 状态 的 链接 信息 一 一 原 有 的 局 部 变量 结构 的 起 始 地 址 和 原来 的 
PC 一 一 被 立即 保存 在 新 创建 的 局 部 变量 区 的 上 方 和 新 的 栈 的 下 方 。 最 后 ， 读 取 新 指令 的 操作 
码 并 把 PC 加 1， 然 后 返回 Mainl 并 开始 执行 新 的 指令 。 

IRETURN 是 一 条 很 简单 的 指令 ， 它 不 带 任 何 操作 数 。 它 使 用 保存 在 局 部 变量 区 第 一 个 
字 中 的 地 址 来 取得 链接 信息 。 然 后 恢复 SP、LV 和 PC 并 把 当前 栈 顶 的 返回 值 拷 贝 到 原来 的 栈 
的 栈 顶 ， 如 图 4-13 所 示 。 


4.4 微 体系 结构 层 设 计 


和 计算 机 科学 中 的 其 他 问题 一 样 ， 微 体系 结构 层 的 设计 也 会 遇 到 许多 需要 解决 的 矛盾 。 
计算 机 有 许多 吸引 人 的 特性 ， 包 括 速度 、 价 格 、 可 靠 性 、 易 用 性 、 电 源 需 求 和 物理 尺寸 等 。 
然而 ，CPU 的 设计 人 员 需 要 解决 的 最 重要 的 矛盾 是 速度 和 价格 之 间 的 矛盾 。 本 节 我 们 将 详细 
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讨论 这 一 问题 ， 我 们 将 讨论 这 一 矛盾 的 本 质 是 什么 ， 如 何 获得 较 高 性 能 ， 相 应 的 硬件 的 价格 
及 其 复杂 性 又 如 何 。 


4.4.1 速度 与 价格 


技术 的 发 展 已 经 使 计算 机 速度 越 来 越 快 ， 这 超出 了 本 书 的 范围 。 尽 管 比 不 上 集成 电路 速 
度 的 提高 对 计算 机 性 能 提高 的 贡献 ， 但 计算 机 组 织 结构 的 改善 对 提高 计算 机 性 能 也 是 功 不 可 
没 的 。 可 以 使 用 多 种 方式 来 衡量 速度 ， 但 是 在 给 定 集成 电路 水 平和 指令 系统 层 的 前 提 下 ， 可 
以 采用 下 面 三 种 基本 的 策略 来 加 快 执行 的 速度 : 

1 ) 减少 指令 执行 的 周期 数 。 

2) 简化 组 织 结构 以 缩短 时 钟 周期 。 

3) 指令 重 和 执行 。 

前 两 种 策略 的 效果 是 显而易见 的 ， 但 是 在 具体 设计 时 不 同 的 选择 可 能 会 对 时 钟 周 期 数量 
和 时 钟 频 率 产 生 很 大 的 影响 。 本 节 我 们 将 举例 说 明 一 个 操作 的 编码 和 译 码 是 如 何 影响 时 钟 周 
期 的 。 

执行 某 一 组 操作 时 需要 的 时 钟 周 期 数 称 为 路 径 长 度 (path length )。 在 某 些 情况 下 ， 可 以 
通过 增加 特殊 的 硬件 来 缩短 路 径 长 度 。 例 如 ， 为 PC 单独 配备 一 个 增 量 器 ( 从 概念 上 说 ， 增 
量 器 就 是 其 中 一 个 输入 端 永远 为 1 的 加 法 器 )， 就 不 需要 使 用 ALU 对 PC 进行 加 1 了， 这 样 
就 节约 了 周期 。 付 出 的 代价 是 增加 了 硬件 。 但 是 ， 这 种 改进 的 效果 并 没有 我 们 想象 得 那么 明 
显 。 对 大 多 数 指令 来 说 ,执行 PC 加 1 的 周期 也 是 读 操作 需要 的 周期 。 后 续 指 令 是 不 可 能 提 
前 执行 的 ， 因 为 它 需 要 依赖 从 内 存 得 到 数据 。 

减少 取 指 令 的 周期 数 比 单纯 给 PC 增加 一 个 额外 的 增 量 器 更 有 意义 。 为 了 大 幅度 地 加 速 
取 指 过 程 ， 必 须 采 用 前 面 提 到 的 第 三 种 策略 一 一 指令 重 又 执行 。 可 以 把 取 指 令 的 电路 (8 位 
的 内 存 端 口 、MBR 以 及 PC 寄存 器 ) 独立 出 来 ， 如 果 这 个 模块 和 主 数据 通路 的 功能 相互 独立 ， 
那么 就 可 以 极 大 地 提高 性 能 。 使 用 这 种 方式 ， 该 模块 可 以 自己 取 下 一 条 操作 码 和 操作 数 ， 还 
可 以 使 用 没有 用 到 的 CPU 异步 执行 这 条 指令 ， 甚 至 可 以 预先 取出 一 条 或 多 条 指令 。 

在 许多 指令 的 执行 过 程 中 ， 最 费时 间 的 阶段 是 取 两 字 节 的 偏 移 量 ， 然 后 对 它们 进行 适当 扩展 ， 
HHA H 寄存 器 准备 执行 加 法 ,例如 ， 跳 转 到 PC + 元 字 节 处 就 需要 执行 这 样 的 操作 。 一 种 可 能 的 
方案 是 把 内 存 端 口 设计 成 16 位 宽 ， 这 实际 上 使 操作 更 加 复杂 化 了 ， 因 为 内 存 实际 上 是 32 位 宽 的 。 
使 用 16 位 可 能 会 跨越 字 边 界 ， 这 时 即使 一 次 读 32 位 也 不 一 定 就 能 得 到 需要 的 这 16 位 数据 。 

指令 的 重 释 执行 是 目前 为 止 设计 人 员 最 感 兴趣 的 ， 也 是 能 够 最 有 效 地 提高 速度 的 措施 。 
简单 地 把 指令 的 取 指 和 执行 重 又 就 已 经 能 够 很 明显 地 提高 速度 了 。 更 复杂 的 技术 可 以 重合 执 
行 多 条 指令 。 实 际 上 ， 这 就 是 现代 计算 机 设计 的 核心 思想 。 下 面 我 们 将 介绍 几 种 指令 重 秋 执 
行 的 基本 技术 ， 并 以 此 促使 我 们 了 解 更 复杂 的 技术 。 

速度 只 是 矛盾 的 一 个 方面 ， 而 价格 是 另 一 个 方面 。 价 格 也 可 以 使 用 多 种 方式 衡量 ， 但 是 
价格 的 精确 定义 仍然 是 个 没有 解决 的 问题 。 某 些 衡量 标准 很 简单 ， 就 是 使 用 的 部 件 的 数量 。 
在 购买 分 离 器 件 组 装 处 理 器 的 年 代 里 ， 这 种 衡量 标准 或 许 是 可 行 的 。 面 今天， 整个 处 理 器 就 
是 一 块 单独 的 芯片 ， 但 是 大 而 复杂 的 芯片 比 小 且 简 单 的 芯片 要 贵 得 多 。 可 以 计算 独立 组 件 的 
数量 ， 比 如 晶体 管 ， 门 电路 或 者 功能 单元 的 数量 ， 但 是 更 常用 的 是 计算 集成 电路 的 芯片 面积 。 
实现 处 理 器 功能 所 需要 的 面积 越 大 ， 芯 片 也 就 越 大 。 而 芯片 的 制造 成 本 随 着 芯片 的 面积 增加 
而 大 幅度 提高 。 正 是 由 于 这 个 原因 ， 设 计 人 员 常 常 以 “房地产 ”(real estate) 来 衡量 价格 ， 也 
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就 是 电路 需要 的 面积 ( 假定 使 用 兆 分 之 一 英亩 为 单位 )。 

在 历史 上 ,二进制 加 法 器 是 被 研究 得 最 透彻 的 电路 之 一 。 加 法 器 有 数 千 种 设计 ， 其 中 最 
快 的 设计 比 最 慢 的 设计 速度 快 很 多 ， 当 然 也 复杂 很 多 。 系 统 设 计 人 员 必 须 决 定 是 否 值得 用 那 
么 多 芯片 面积 来 换取 较 高 的 性 能 。 

加 法 器 并 不 是 唯一 一 种 存在 多 种 选择 的 部 件 。 几 乎 系统 中 的 每 个 部 件 都 有 快速 的 和 慢 速 
的 设计 ， 对 应 着 不 同 的 价格 。 设 计 者 面临 的 挑战 是 需要 找 出 对 系统 性 能 影响 最 大 的 部 件 ， 然 
后 对 它们 进行 优化 。 有 一 点 很 有 趣 ， 系 统 中 的 许多 部 件 被 替换 成 速度 更 快 的 部 件 后 ， 却 不 能 
提高 系统 的 整体 性 能 。 下 面 我 们 将 讨论 某 些 设计 问题 以 及 相应 的 矛盾 。 

决定 时 钟 频率 的 关键 因素 之 一 是 每 个 时 钟 周期 需要 完成 的 工作 量 。 很 显然 ， 做 的 工作 越 
多 ， 时 钟 周期 就 越 长 。 当 然 ， 问 题 并 不 这 么 简单 ， 因 为 硬件 可 以 并 行 地 做 许多 工作 ， 因 此 ， 
实际 决定 时 钟 周期 长 度 的 是 一 个 时 钟 周期 中 需要 串 行 完 成 的 操作 序列 。 

译 码 电路 的 数量 是 一 个 可 以 控制 的 因素 。 请 回忆 一 下 ， 在 图 4-6 的 例子 中 ,虽然 ALU 的 
B 总 线 的 数据 来 源 有 9 个 寄存 器 ， 但 是 我 们 只 需要 微 指 令 字 中 的 4 位 就 可 以 指定 将 要 使 用 的 
寄存 器 。 但 是 很 不 幸 ， 这 种 节约 并 非 没 有 任何 代价 。 译 码 过 程 增加 了 临界 路 径 的 延迟 时 间 。 
这 意味 着 寄存 器 要 经 过 一 小 段 延 时 才能 接收 到 命令 ， 而 且 数据 也 会 多 经 过 这 一 段 延 时 之 后 才 
能 到 达 B 总 线 。 后 面 将 发 生 连 锁 反 应 ，ALU 接收 输入 也 会 有 一 段 延 时 ， 产 生 结果 也 有 一 段 延 
时 。 最 后 ， 结 果 出 现在 可 以 写 人 寄存 器 的 C 总 线 上 也 有 一 段 延 时 。 由 于 这 种 延 时 通常 是 决定 
时 钟 周 期 长 度 的 因素 ， 因 此 它 意 味 着 计算 机 的 主 频 不 能 太 快 ， 最 终 导 致 了 整 台 计算 机 速度 的 
下 降 。 这 就 是 速度 和 价格 之 间 的 矛盾 。 把 控制 存储 器 中 的 每 个 字 都 缩短 5 位 的 代价 是 时 钟 频 
率 的 降低 。 设 计 工程 师 必须 认真 地 考虑 设计 目标 以 便 作 出 正确 的 选择 。 如 果 需 要 高 性 能 的 实 
现 ， 那 就 不 要 使 用 译 码 器 ; 但 是 如 果 追 求 低 价 格 , 使 用 译 码 器 或 许 是 个 好 主意 。 


4.4.2 ”缩短 指令 执行 路 径 长 度 


虽然 结构 简单 和 运行 快速 这 两 个 目标 很 难 同 时 实现 ， 但 是 我 们 仍然 把 Mic-1 的 设计 目标 
定 为 结构 相对 简单 ， 速 度 又 比较 快 。 简 单 地 说 ,结构 简单 的 计算 机 速度 肯定 不 快 ， 而 速度 快 
的 计算 机 结构 肯定 不 会 很 简单 。Mic-1 CPU 使 用 了 最 精简 的 硬件 : 10 个 寄存 器 、 简 单 的 ALU 
(由 32 个 图 3-19 组 成 )、 一 个 移 位 器 、 一 个 译 码 器 、 一 块 控制 存储 器 和 其 他 一 些 辅助 电路 。 
算 上 控制 存储 器 (ROM) MEF (RAM )， 整 个 系统 也 不 会 超过 5000 个 晶体 管 。 

前 面 已 经 介绍 过 ， 使 用 这 么 少 的 硬件 就 可 以 用 微 码 方式 简单 明了 地 实现 UVM， 下 面 我 们 
来 研究 速度 比较 快 的 实现 。 我 们 首先 研究 如 何 减少 每 条 ISA 指令 的 微 指 令 条 数 ( 也 就 是 缩短 
指令 执行 路 径 长 度 )。 然 后 ， 我 们 再 讨论 其 他 的 方案 。 

1. 合并 主 循环 和 微 码 

在 Mic-1 中 ， 主 循环 包括 每 条 IVM 指令 开始 时 都 必须 执行 的 一 条 微 指 令 。 在 某 些 情况 
下 ， 它 可 以 和 先前 的 指令 重 琶 。 实 际 上 ， 我 们 已 经 部 分 实现 了 这 一 功能 。 请 注意 ， 当 Mainl 
执行 时 ， 需 要 解释 的 操作 码 已 经 在 MBR 中 了 。 它 或 者 是 由 前 一 个 主 循环 取出 的 (前 一 条 指 
令 没 有 操作 数 的 情况 )， 或 者 是 在 前 一 条 指令 的 执行 过 程 中 取出 的 。 

这 只 是 重 肆 了 指令 执行 的 开始 部 分 ， 我 们 还 可 以 把 这 种 方案 进一步 扩展 。 实 际 上 ， 在 某 
些 情况 下 ， 整 个 主 循环 都 是 不 需要 的 。 我 们 可 以 这 样 考虑 ， 现 在 的 每 段 微 指令 序列 结束 时 都 
跳 转 到 Main1， 我 们 可 以 把 Main! 附加 在 序列 的 末尾 ( 而 不 是 下 一 个 序列 的 开始 )， 这 种 替换 
有 很 多 处 ， 但 是 替换 之 后 的 结果 和 原来 是 一 致 的 。 在 某 些 情况 下 ， 微 指令 Mainl 可 以 和 前 面 
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一 条 微 指令 合并 ， 因 为 有 些微 指令 的 利用 率 并 不 高 。 

图 4-23 是 POP 指令 的 动态 微 指 令 序 列 。 主 循环 发 生 在 每 条 指令 运行 前 和 运行 后 ; 图 4-23 
中 我 们 只 列 出 了 执行 POP 指令 之 后 的 主 循环 。 请 注意 ， 执 行 这 条 指令 需要 四 个 时 钟 周期 : 三 
个 周期 用 于 POP 指令 ， 一 个 周期 用 于 主 循环 。 


MAR =SP=SP-1;rd 读 入 栈 中 栈 顶 之 下 的 字 


等 待 从 内 存 中 读 人 新 的 TOS 
TOS = MDR; goto Mainl 把 新 的 字 拷 贝 到 TOS 中 
PC = PC + 1; fetch; goto (MBR) MBR 中 包含 操作 码 ; 取得 下 一 个 字 节 ; 多 路 转移 


图 4-23 ”执行 POP 最 初 的 微 指令 序列 


在 图 4-24 中 ,通过 合并 主 循环 征 指 令 把 微 指令 条 数 缩减 到 了 三 条 ， 合 并 的 原理 是 执行 
pop2 微 指令 时 ALU 是 空闲 的 ， 因 此 这 个 周期 可 以 用 于 执行 Main1。 该 序列 结束 时 将 直接 跳 
转 到 后 续 指 令 的 微 码 处 ， 因 此 一 共 只 需要 三 个 周期 。 这 个 小 技巧 可 以 为 下 一 条 指令 节约 一 个 
微 指 令 周 期 ， 举 例 来 说 ， 如 果 下 一 条 指令 是 IADD， 那么 这 条 IADD 的 微 指 令 周 期 将 从 4 变 
为 3。 这 相当 于 把 时 钟 频 率 从 250MHz (4 纳 秒 一 条 微 指令 ) 提高 到 333MHz (3 纳 秒 一 条 微 


指令 )。 





MAR=SP=SP-1;rd  ” 读 人 栈 中 栈 顶 之 下 的 字 


Mainl.pop PC=PC+1;fetch MBR 中 包含 操作 码 ; 取得 下 一 个 字 节 
pop3 TOS = MDR; goto (MBR) 把 新 的 字 拷贝 到 TOS 中 ; 根据 操作 码 转 移 


图 4-24 执行 POP 指令 的 增强 的 微 程序 序列 





POP 指令 很 适合 于 这 样 处 理 ， 因 为 在 POP 指令 的 微 指令 序列 中 有 一 个 不 使 用 ALU 的 
周期 。 而 主 循环 是 需要 使 用 ALU 的 。 因 此 ， 只 有 当 某 条 指令 的 微 指令 序列 中 有 一 条 不 使 用 
ALU 的 微 指 令 ， 才 可 以 使 该 指令 的 微 指令 周期 缩短 1。 虽 然 这 种 情况 并 不 常见 ， 但 是 的 确 存 
在 ， 因 此 把 Mainl 合并 到 每 段 微 指令 序列 的 末尾 还 是 值得 的 。 付 出 的 代价 只 是 一 点 点 控制 存 
储 器 空间 。 这 就 是 我 们 缩短 路 径 长 度 的 第 一 种 技术 : 

把 主 循环 合并 到 每 段 微 指令 序列 的 末尾 。 

2. 三 总 线 体系 结构 

还 有 其 他 方法 能 缩短 执行 路 径 长 度 吗 ? 另 一 种 很 容易 想到 的 方案 是 为 ALU 配备 两 条 完整 
的 输入 总 线 ，A 总 线 和 B 总 线 ， 这 样 一 共 就 有 三 条 总 线 。 所 有 的 ( 至 少 是 大 部 分 ) 寄存 器 都 
能 够 访问 这 两 条 输入 总 线 。 使 用 两 条 输入 总 线 的 好 处 是 可 以 在 一 个 周期 内 执行 任意 两 个 寄存 
器 的 加 法 。 为 了 理解 这 一 点 ， 请 看 Mic-1 中 ILOAD 指令 的 实现 ， 如 图 4-25 所 示 。 









H=LV MBR 中 包含 索引 ; 把 LV 拷贝 到 HH 中 
iload2 MAR = MBRU + H; rd MAR = 要 保存 的 局 部 变量 的 地 址 
iload3 MAR=SP=SP+1 SP 指向 新 的 栈 顶 ， 准 备 写 

iload4 PC=PC+1;fetch; wr PC 加 1; 取 下 一 个 操作 码 ; BART 
TOS = MDR; goto Mainl 修改 TOS 

PC = PC +1; fetch; goto (MBR) MBR 中 包含 操作 码 ; 取得 下 一 个 字 节 ; 多 路 转移 


图 4-25 Mic-l 中 执行 ILOAD 的 代码 








RR 


我 们 看 到 ， 在 iloadl AHH, LV REM BHP. PTE EN T E iload2 周期 时 能 够 
执行 MBRU Fil H 的 加 法 操作 。 在 最 初 的 双 总 线 设计 中 ， 我 们 没有 办 法 对 任意 两 个 寄存 器 执行 
加 法 ， 因 此 必须 首先 把 其 中 的 一 个 拷贝 到 再 中 。 使 用 新 的 三 总 线 设 计 ， 我 们 就 可 以 节省 一 个 
周期 ， 如 图 4-26 所 示 。 图 中 已 经 把 主 循环 合并 到 ILOAD 中 了 ， 但 是 这 种 合并 对 执行 路 径 长 
度 没有 任何 影响 。 而 增加 的 这 一 条 总 线 把 LOAD 指令 的 执行 时 间 从 六 个 周期 缩短 到 了 五 个 周 
期 。 这 是 我 们 缩短 路 径 长 度 的 第 二 种 技术 : 

把 双 总 线 设计 改进 成 三 总 线 设计 。 


iloadl MAR = MBRU + H; rd MAR = 要 保存 的 局 部 变量 的 地 址 
iload2 MAR=SP=SP+1 SP 指向 新 的 栈 顶 ， 准 备 写 


iload3 ”PC = PC +1; fetch; wr PC 加 1; 取 下 一 个 操作 码 ; 写 人 栈 项 
iload4 TOS=MDR 修改 TOS 
iload5 PC=PC +l; fetch; goto (MBR) MBR 中 已 经 包含 了 操作 码 ; 取 索 引 字 节 





图 4-26 执行 ILOAD 的 三 总 线 代码 

3. 取 指 单元 

上 面 的 两 种 技术 都 很 有 有 用， 但 是 如 果 想 使 性 能 有 较 大 的 提高 ， 我 们 还 需要 某 些 根本 性 的 
改进 。 我 们 来 考察 一 下 所 有 指令 的 共同 部 分 : 取 指 令 和 译 码 。 我 们 可 以 看 到 ， 每 条 指令 都 会 
按照 下 面 的 步骤 执行 : 

1) PC 通过 ALU 并 加 1。 

2) 使 用 PC 取得 指令 流 的 下 一 个 字 节 。 

3 ) 从 内 存 读 操作 数 。 

4) 将 操作 数 写 和 人 内存。 

5) ALU 执行 计算 并 保存 结果 。 

如 果 指 令 除 了 操作 码 之 外 还 有 其 他 的 字段 ( 比如 操作 数 )， 那 就 必须 按照 一 次 一 个 字 节 的 
方式 取得 这 些 操作 数 ， 在 使 用 之 前 还 得 把 它们 装配 在 一 起 。 在 取得 并 装配 一 个 操作 数 的 过 程 
中 ， 取 每 个 字 节 至 少 会 占用 ALU 一 个 周期 ， 因 为 PC 必须 加 1， 装 配 过 程 (装配 结果 索引 或 
偏 移 量 ) 又 要 占用 一 个 周期 。 除 了 指令 真正 需要 完成 的 操作 之 外 ，ALU 几乎 在 每 个 周期 中 都 
要 做 取 操 作 数 和 装配 操作 数 的 工作 。 

AY EDM EBT, FETE ALU 从 这 些 工作 中 解放 出 来 。 我 们 可 以 增加 一 片 
ALU， 虽 然 完 成 这 些 工 作 并 不 需要 ALU 的 完整 功能 。 请 注意 ， 在 许多 情况 下 ，ALU 只 不 过 
是 把 一 个 寄存 器 的 值 找 贝 到 另 一 个 寄存 器 的 数据 通路 。 我 们 可 以 使 用 不 通过 ALU 的 额外 的 数 
据 通路 来 缩短 执行 周期 。 例 如 ， 在 TOS 和 MDR 之 间 建 立 直接 的 数据 通路 会 带 来 很 多 好 处 ， 
因为 栈 顶 的 字 需 要 频繁 地 在 这 两 个 寄存 器 之 间 拷 贝 。 

在 Mic-1 中 ， 可 以 通过 使 用 独立 的 取 指 和 处 理 单元 来 减轻 ALU 的 许多 负担 。 这 个 单元 称 
为 取 指 单元 ( Instruction Fetch Unit, IFU )， 它 可 以 独立 地 执行 PC 加 1， 可 以 预先 从 字 节 流 中 
读 取 字 节 。 这 个 单元 只 需要 一 个 增 量 器 ， 这 要 上 比 功能 完整 的 加 法 器 简单 得 多 。 将 这 种 思想 进 
一 步 推 广 , IFU 还 可 以 装配 8 位 或 者 16 位 的 操作 数 ， 这 样 当 需要 的 时 候 就 可 以 立即 使 用 它们 。 
IFU 至 少 可 以 采用 下 面 两 种 方式 实现 : 

1) IFU 可 以 实际 地 解释 每 个 操作 码 ， 决 定 需要 取 几 个 额外 的 字段 ， 并 把 它们 装配 到 某 个 
寄存 器 中 以 供 主 执行 单元 使 用 。 | 
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2) IFU 利用 指令 的 流 特 性 ， 总 是 使 下 一 个 字 节 或 两 个 字 节 处 于 可 用 状态 ， 而 不 去 管 这 些 


字 节 的 意义 。 主 执行 单元 需要 的 时 候 可 以 从 IFU 取得 这 些 字 节 。 


图 4-27 是 第 二 种 方式 的 简单 设计 。 图 中 MBR 从 一 个 变 成 了 两 个 : 8 位 的 MBRL 和 16 
位 的 MBR2。IFU 保存 主 执行 单元 最 近 一 次 使 用 的 一 个 字 节 或 两 个 字 节 。MBR1 中 保存 的 是 
下 一 个 字 节 ， 这 和 Mic-1 是 一 样 的 ， 区 别 在 于 它 是 自动 的 ， 意 思 是 当 MBRI1 被 读 取 之 后 ， 它 
就 会 自动 去 取 下 一 个 字 节 并 将 其 保存 在 MBR1 中 。 和 Mic-1 一 样 ，B 总 线 仍 然 有 两 个 接口 : 
MBR1 和 MBR1IU。 前 者 符号 扩展 到 32 位 ， 而 后 者 是 零 扩 展 的 。 











图 4-27 Mic-1 的 取 指 单元 


与 之 类 似 ，MBR2 提供 了 相同 的 功能 ， 不 过 它 保 存 的 是 下 两 个 字 节 。 它 也 有 两 个 到 B 总 
线 的 接口 : MBR2 和 MBR2U, 分 别 保存 32 位 符号 扩展 的 值 和 零 扩 展 的 值 。 

IFU 负责 取 字 节 流 ， 它 使 用 常见 的 4 字 节 内 存 端 口 ， 一 次 取出 完整 的 4 字 节 的 字 并 把 这 
些 连 续 的 字 节 存 人 移 位 寄存 器 ， 按 照 取 字 节 的 顺序 可 以 一 次 取出 一 个 或 者 两 个 字 节 。 移 位 寄 
存 器 的 功能 是 维护 一 个 来 自 内 存 的 字 节 队列 ， 以 满足 MBR1 和 MBR2 的 需要 。 

无 论 何 时 ，MBR1 总 是 保存 移 位 寄存 器 中 最 先 到 达 的 字 节 ， 而 MBR? 中 保存 的 是 最 先 到 
达 的 两 个 字 节 ( 最 先 到 达 的 字 节 在 左面 )， 这 样 可 以 得 到 一 个 16 位 的 整数 (参见 图 4-19b )。 
MBR2 中 的 两 个 字 节 可 能 位 于 不 同 的 内 存 字 中 ， 因 为 JVM 指令 在 内 存 中 并 不 是 按照 字 边 界 
对 齐 的 。 

对 MBR1 执行 读 操 作 时 ， 移 位 寄存 器 右 移 一 个 字 节 。 对 MBR2 执行 读 操作 时 ， 移 位 寄存 
器 右 移 两 个 字 节 。 然 后 ， 最 左面 的 一 个 字 节 和 两 个 字 节 将 分 别 存 人 MBR1 和 MBR2。 如 果 移 
位 寄存 器 的 左面 还 有 足够 的 空间 可 以 保存 一 个 完整 的 字 ，IFEU 就 启动 一 次 内 存 周期 以 读 和 人 一 
个 字 。 我 们 假定 无 论 何 时 对 MBR 寄存 器 执行 读 操 作 ， 在 下 一 个 周期 开始 时 ，MBR 寄存 器 就 
会 再 次 被 填 满 ， 这 样 就 可 以 以 连续 的 周期 读 取 MBR 寄存 器 。 

设计 IFU 时 可 以 使 用 有 限 状态 机 (Finite State Machine, FSM ) 模型 来 表示 其 工作 过 程 
( 如 图 4-28 所 示 )。 所 有 的 FSM 都 由 两 部 分 组 成 :状态 ( state )， 在 图 4-28 中 用 圆圈 表示 ; 变 
XE ( transition )， 图 4-28 中 从 一 个 状态 指向 另 一 个 状态 的 有 向 弧 就 是 变迁 。 每 个 状态 都 表示 
FSM 的 一 种 可 能 的 情况 。 图 中 的 FSM 共有 七 个 状态 ， 分 别 对 应 图 4-27 中 移 位 寄存 器 的 七 种 
状态 。 而 七 种 状态 分 别 和 移 位 寄存 器 当前 的 字 节 数 (0 ~ 6) 对 应 。 
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取 字 


一 
eer yen pe 
CO er 


MBR2 MBR2 





变迁 

MBR1: 当 MBR1 被 读 时 发 生 

MBR2: 当 MBR2 被 读 时 发 生 

取 字 : 读 一 个 存储 器 字 并 将 4 个 字 节 放 入 移 位 寄存 器 时 发 生 


图 4-28 ”实现 IFU 的 有 限 状态 机 


每 条 有 向 弧 都 表示 发 生 某 种 事件 。 这 里 共有 三 种 不 同 的 事件 。 第 一 种 事件 是 从 MBR1 中 
读 取 一 个 字 节 。 该 事件 将 激活 移 位 寄存 器 把 一 个 字 节 右 移 出 寄存 器 ， 状 态 减 1。 第 二 种 事件 
是 从 MBR2 中 读 取 两 个 字 节 ， 该 事件 将 使 状态 减 2。 这 些 变迁 都 会 导致 重新 加 载 MBR1 和 
MBR2。 当 FSM 进入 状态 0、1 或 者 2 时 ， 将 启动 内 存 操作 读 取 新 的 字 ( 假定 内 存 处 于 空闲 状 
态 )。 内 存 字 到 达 将 使 状态 数 加 4。 

为 了 保证 正确 性 ， 当 要 求 FU 完成 不 可 能 完成 的 工作 时 ，IFU 将 阻塞 ， 例 如 要 求 读 取 
MBR2 中 的 值 ， 而 此 时 移 位 寄存 器 中 只 有 一 个 字 节 而 且 内 存 也 处 于 忙 状 态 。 另 外 ， 由 于 IFU 
一 次 只 能 完成 一 项 工作 ， 因 此 事件 必须 串 行 到 达 。 最 后 一 点 ， 当 PC 改变 时 ，IFU 也 必须 被 更 
新 。 这 些 细节 使 实际 的 IFU 比 图 4-28 中 画 出 的 要 复杂 。 需 要 补充 的 一 点 是 ， 许 多 硬件 设备 都 
可 以 用 FSM 来 构造 。 

IFU 有 自己 的 内 存 地 址 寄存 器 ， 称 为 IMAR， 它 用 于 读 新 的 内 存 字 时 对 内 存 进行 寻 址 。 
该 寄存 器 有 自己 专用 的 增 量 器 ， 这 样 就 不 用 主 ALU 来 承担 对 IMAR 增 量 的 任务 。IFU 必须 监 
W C 总 线 以 保证 加 载 PC 时 把 新 的 PC 值 拷贝 到 IMAR 中 。 由 于 新 的 PC 值 可 能 并 不 位 于 字 边 
界 ， 因 此 IFU 必须 能 够 取得 必要 的 字 并 对 移 位 寄存 器 进行 适当 的 调整 

使 用 IFU 之 后 ， 主 执行 单元 需要 改变 指令 字 节 流 的 执行 顺序 时 只 需要 改变 PC 值 ， 转 移 
指令 ，INVOKEVIRTUAL 指令 和 IRETURN 指令 都 可 以 改变 PC 值 。 

由 于 微 程序 在 取 操 作 码 时 不 再 对 PC 加 1， 因 此 IFU 必须 保证 当前 的 PC 是 正确 的 。 当 从 
指令 流 中 读 取 字 节 后 ， 也 就 是 说 ， 当 从 MBR1 或 者 MBR? ( 或 无 符号 版 本 ) 中 读 取 指令 后 ， 
和 PC 相关 的 一 个 独立 的 累加 器 将 对 PC 加 1 或 者 加 2 (根据 读 取 的 字 节 数 )。 这 样 PC 就 总 是 
指向 还 没有 使 用 的 第 一 个 字 节 的 地 址 。 在 每 条 指令 开始 时 ，MBR 总 是 保存 该 指令 的 操作 码 的 
地 址 。 

请 注意 ，IFU 中 有 两 个 独立 的 增 量 器 ， 它 们 执行 不 同 的 功能 。PC 计算 字 节 数 ， 每 次 加 1 
或 者 加 2。IMAR 计算 字数 ， 每 次 只 加 1 (表示 4 个 新 的 字 节 )。 和 MAR 一 样 ，IMAR 也 是 斜 
着 接 在 地 址 总 线 上 的 ，IMAR 的 位 0 接 在 地 址 线 2 上 ， 其 他 依次 类 推 ， 这样 可 以 隐 舍 地 把 字 
地 址 转换 成 字 节 地 址 。 

很 快 我 们 就 会 看 到 ， 不 在 主 循环 中 对 PC 进行 增 量 运算 是 一 个 很 大 的 进步 ， 因 为 执行 PC 
加 1 的 微 指 令 通常 并 不 执行 其 他 的 功能 。 把 这 些微 指令 裁剪 掉 ， 就 可 以 缩短 指令 执行 路 径 。 这 
里 的 折 中 方案 是 ， 用 更 多 的 硬件 来 使 计算 机 执行 得 更 快 。 因 此 我 们 的 第 三 种 缩短 路 径 长 度 的 技 
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术 是 
使 用 定制 的 功能 单元 执行 取 指 操作 。 


4.4.3 ” 带 预 取 的 设计 : Mic-2 


使 用 IFU 可 以 明显 地 缩短 平均 的 指令 路 径 长 度 。 首 先 ， 完 全 不 需要 再 使 用 主 循环 ， 因 为 每 
条 指令 都 能 直接 从 结束 处 跳 转 到 下 一 条 指令 的 开始 处 。 其 次 ， 它 自己 执行 PC 加 1， 从 而 减轻 
T ALU 的 负担 。 第 三 ， 它 可 以 减少 计算 16 位 的 索引 或 偏 移 量 时 的 路 径 长 度 ， 因 为 IFU 可 以 装 
Bc 16 位 的 值 并 把 它 作 为 32 位 的 值 直 接送 给 ALU， 这 就 不 需要 再 使 用 HH 寄存 器 了 。 图 4-29 中 
是 Mic-2， 它 是 Mic-1 的 增强 版 本 ， 其 中 增加 了 图 4-27 AA IFU. Mic-2 的 微 码 如 图 4-30 所 示 。 
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图 4-29 Mic-2 的 数据 通路 
我 们 以 IADD 为 例 来 看 看 Mic-2 是 如 何 工 作 的 。 它 从 栈 中 取出 第 二 个 字 并 执行 加 法 ,这 
和 过 去 一 样 ， 不 同 的 是 它 不 再 需要 跳 转 到 Mainl 来 对 PC 加 1 并 跳 转 到 下 一 条 微 指 令 了 。 当 
IFU 看 到 在 iadd3 周期 时 MBR1 已 经 被 引用 了 ， 它 的 内 部 移 位 寄存 器 就 会 执行 右 移 并 重新 装 
人 MBRI 和 MBR2。 它 还 会 使 自己 所 处 的 状态 比 刚才 的 状态 减 1。 如 果 新 状态 是 2，IFU 就 
启动 内 存 读 操作 读 取 一 个 字 。 所 有 这 些 都 是 硬件 完成 的 ， 微 程序 不 需要 做 任何 事情 。 因 此 
IADD 指令 从 4 个 微 指 令 周 期 缩短 到 了 3 个 微 指 令 周期 。 
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在 Mic-2 中 ， 某 些 指令 的 执行 路 径 缩短 得 较 多 ， 而 其 他 指令 则 少 一 些 。LDC_ W 从 9 条 
微 指令 缩短 到 了 3 条 微 指 令 ， 是 原来 的 113。 而 SWAP 指令 只 从 8 个 周期 缩短 到 6 个 周期 。 
如 果 要 考虑 全 局 性 能 ， 需 要 计算 比较 通用 的 指令 。 包 括 LAOD (原来 6 个 周期 ， 现 在 3 个 周 
期 )，IADD ( 原来 4 个 周期 ， 现 在 3 个 周期 A IF_ICMPEQ ( 跳 转 的 情况 下 ， 原 来 是 13 个 
周期 ， 现 在 是 10 个 周期 ， 不 跳 转 的 情况 下 ， 原 来 是 10 个 周期 ， 现 在 是 8 个 周期 )。 如 果 想 计 
算 性 能 到 底 提 高 了 多 少 ， 可 以 通过 运行 某 种 基准 测试 程序 (benchmark ) 来 测试 ， 但 是 毋庸 置 
疑 ， 性 能 肯定 有 明显 的 提高 。 





标 号 Rm fF i FF 
nopl goto (MBR) 转移 到 下 一 条 指令 
iadd1 MAR = SP = SP— 1; rd 读 人 栈 中 栈 顶 之 下 的 字 
iadd2 H=TOS H = ki 
iadd3 MDR = TOS = MDR + H; wr; goto (MBR1) 栈 顶 的 两 个 字 相 加 ; 结果 写 回 栈 顶 
isubl MAR = SP = SP — 1; rd 读 入 栈 中 栈 顶 之 下 的 字 
isub2 H=TOS H= 栈 顶 
isub3 MDR = TOS = MDR - H; wr; goto (MBR1) 执行 减法 ， 结 果 写 回 栈 顶 
iandl MAR = SP= SP — 1; rd 读 人 栈 中 栈 顶 之 下 的 字 
iand2 H=TOS H = RM 
iand3 MDR = TOS = MDR AND H; wr; goto (MBR1) 执行 AND 运算 ， 结 果 写 回 栈 顶 
iorl MAR=SP=SP-1;rd 读 人 栈 中 栈 顶 之 下 的 字 
ior2 H=TOS H = RM 
ior3 MDR = TOS = MDR OR H; wr; goto (MBR1) ”执行 OR 运算 ， 结 果 写 回 栈 顶 
dupl MAR =SP=SP+1 SP 加 1 并 拷贝 到 MAR 中 
dup2 MDR = TOS; wr; goto (MBR1) 结果 写 回 栈 顶 
popl MAR = SP= SP —1; rd 读 人 栈 中 栈 顶 之 下 的 字 
pop2 等 待 从 内 存 中 读 人 新 的 TOS 
pop3 TOS = MDR; goto (MBR1) 把 新 的 字 拷 贝 到 TOS 中 
swapl MAR = SP — 1; rd MAR 赋值 为 SP- 1; 读 人 栈 顶 之 下 的 字 
swap2 MAR= SP MAR 赋值 为 栈 项 指针 
swap3 H=MDR; wr 把 TOS 保存 在 H 中 ; 把 栈 的 第 二 个 字 写 人 栈 顶 
swap4 MDR = TOS 把 旧 的 TOS 拷贝 到 MDR 中 
swap5 MAR = SP— 1; wr MAR 赋值 为 SP- 1; 写 人 栈 中 的 第 二 个 字 
swap6 TOS = H; goto (MBR1) 修改 TOS 
bipushl SP=MAR=SP+1 MBR 赋值 ， 准 备 写 人 新 的 栈 顶 值 
bipush2 MDR = TOS = MBR1; wr; goto (MBR1) 修改 TOS 中 的 栈 顶 和 内 存 
iload1 MAR = LV + MBRIU; rd 把 LV 加 索引 存 人 MAR; 读 操 作 数 
iload2 MAR=SP=SP+1 SP 加 1; 把 新 的 SP 存 人 MAR 
iload3 TOS = MDR; wr; goto (MBR1) 修改 TOS 中 的 栈 顶 和 内 存 
istorel MAR = LV + MBRIU MAR 赋值 为 LV+ 索引 值 
istore2 MDR = TOS; wr 拷贝 TOS 用 于 保存 
istore3 MAR =SP=SP- 1; rd SP 加 1; 读 人 新 的 TOS 
istore4 等 待 读 
istore5 TOS = MDR; goto (MBR1) 修改 TOS 
widel goto (MBR1 OR 0x100) 下 一 地 址 是 0x100 与 操作 码 执行 或 操作 
wide-iload1 MAR = LV + MBR2U; rd; goto iload2 和 iloadl 相同 ， 但 是 使 用 了 两 个 字 节 的 索引 值 


图 4-30 Mic-2 的 微 程序 
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标 号 
wide-istorel 
ldc wl 
iinc1 
iinc2 
iinc3 
gotol 
goto2 
goto3 
goto4 
itl 

ifit2 

iflt3 
ifit4 
ifeql 
ifeq2 
ifeq3 
ifeq4 
if icmpeql 
if icmpeq2 
if_icmpeq3 
if_icmpeq4 
if icmpeq5 
, if_iempeq6 


T 


F 
F2 


invokevirtuall 
invokevirtual2 
invokevirtual3 
invokevirtual4 
invokevirtual5 
invokevirtual6 
invokevirtual7 
invokevirtual8 
invokevirtual9 
invokevirtuall0 
invokevirtual11 
ireturn] 
ireturn2 
ireturn3 
ireturn4 
ireturnS 
ireturn6 
ireturn7 
ireturn8 


Ro ” 作 
MAR = LV + MBR2U; goto istore2 
MAR = CPP + MRB2U; rd; goto iload2 


MAR = LV + MBRIU; rd 

H = MBRI 

MDR = MBR + H; wr; goto (MBR1) 
H=PC-1 

PC =H + MBR2 


goto (MBR1) 

MAR = SP= SP — 1; rd 

OPC = TOS 

TOS = MDR 

N = OPC; if (N) goto T; else goto F 
MAR = SP = SP- 1; rd 

OPC = TOS 

TOS = MDR 

N = OPC; if (Z) goto T; else goto F 
MAR = SP = SP -1; rd 

MAR = SP= SP -1 

H = MDR; rd 

OPC = TOS 

TOS = MDR 

Z = OPC - H; if (Z) goto T; else goto F 


H = PC — 1; goto goto2 


H = MBR2 
goto (MBR1) 


MAR = CPP + MBR2U; rd 
OPC = PC 

PC= MDR 

TOS = SP— MBR2U 

TOS = MAR =H=TOS +1 
MDR = SP + MBR2U + 1; wr 
MAR = SP = MDR 

MDR = OPC; wr 

MAR = SP= SP +1 

MDR = LV; wr 

LV = TOS; goto (MBR1) 


MAR = SP = LV; rd 


LV = MAR = MDR; rd 
MAR=LV+1 

PC = MDR; rd; 

MAR = SP 

LV = MDR 

MDR = TOS; wr; goto (MBR1) 


g4ž 


注 # 
和 istorel 相同 ， 但 是 使 用 了 两 个 字 节 的 索引 值 
和 wide iloadl 相同 ， 但 是 索引 使 用 了 CPP 


把 MAR 设置 为 LV+ 索引 值 准 备 读 
把 开 赋 值 为 常数 
加 上 常数 并 修改 


PCHMAH P 

加 上 偏 移 量 并 修改 PC 
等 待 IFU 取得 新 的 操作 码 
执行 新 的 指令 

读 入 栈 中 栈 顶 之 下 的 字 
把 TOS 临时 保存 在 OPC 中 
把 新 的 栈 顶 放 人 TOS 

根据 N 位 转移 


读 和 人 栈 中 栈 顶 之 下 的 字 

把 TOS 临时 保存 在 OPC 中 
把 新 的 栈 顶 放 人 TOS 
根据 Z 位 转移 


读 人 栈 中 栈 顶 之 下 的 字 

设置 MAR 为 刚 读 人 的 新 的 栈 顶 

把 栈 中 第 二 个 字 拷 贝 到 互 中 

把 TOS 临时 保存 在 OPC 中 

把 新 的 栈 顶 保存 在 TOS 中 

如 果 栈 顶 的 两 个 字 相 等 ，goto T， 否 则 goto F 


和 gotol 一 样 
MBR2 中 的 字 节 被 丢弃 


把 方法 指针 的 地 址 放 人 MAR 

在 OPC 中 保存 返回 的 PC 

设置 PC 为 方法 代码 的 第 一 个 字 节 
TOS = OBJREF 地 址 -1 

TOS = OBJREF 的 地 址 

用 链接 指针 覆 写 OBJREF 

设置 SP、MAR 为 保存 原来 的 PC 的 位 置 
准备 保存 原来 的 PC 

SP 加 1 指向 保存 原来 的 PC 的 位 置 
保存 原来 的 LV 

设置 LV 指向 第 0 个 参数 


重 置 SP、MAR 获得 链接 指针 


等 待 链 接 指针 

把 LY、MAR 设置 为 链接 指针 ; 取得 原 有 的 PC 
设置 MAR 指向 原 有 的 工 ; 读 取 原 有 的 LV 

重 置 PC 

HELV 

把 返回 值 保存 在 原来 的 栈 顶 


图 4-30 ( 续 ) 
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4.4.4 流水 线 设计 : Mic-3 


很 明显 ，Mic-2 和 Mic-1 相 比 有 提高 。 它 的 运行 速度 更 快 而 且 使 用 的 控制 存储 器 更 少 ， 
当然 ， 毫 无 疑问 IFU 的 成 本 比 从 控制 存储 器 上 省 下 来 的 要 更 高 一 些 。 因 此 ， 这 是 一 台 比 较 快 
的 计算 机 而 且 价 格 也 相应 较 高 。 下 面 我 们 来 看 看 能 否 想 办 法 使 它 更 快 一 些 。 

试 试 缩短 周期 会 怎么 样 ? 周期 时 间 在 相当 大 的 程度 上 是 由 底层 的 硬件 决定 的 。 唱 体 管 越 
小 ， 晶 体 管 之 间 的 物理 距离 越 短 ， 时 钟 就 可 以 运行 得 越 快 。 在 给 定 的 技术 条 件 下 ， 执 行 完 整 
的 数据 通路 操作 需要 的 时 间 是 固定 的 (至少 从 我 们 的 观点 来 看 是 这 样 的 )。 然 而 无 论 如 何 ， 其 
中 还 是 有 一 些 自由 度 的 ， 我们 可 以 充分 利用 它 。 

在 计算 机 中 引入 更 多 的 并 行 机 制 是 我 们 的 另 一 种 选择 。 目 前 的 Mic-2 是 高 度 串 行 化 
的 。 它 把 寄存 器 的 值 放 在 总 线 上 ， 等 待 ALU 和 移 位 寄存 器 处 理 它们 ， 然 后 再 把 它们 写 
回 寄存 器 中 。 除 了 IFU 之 外 ， 几 乎 没有 其 他 的 并 行 机 制 。 增 加 并 行 性 是 一 个 很 现实 的 
选择 。 

正如 前 面 提 到 的 ， 时 钟 周期 受到 信号 在 数据 通路 上 传播 时 间 的 限制 。 图 4-3 中 列 出 了 每 
个 周期 中 数据 通过 不 同 部 分 的 延迟 时 间 。 在 实际 的 数据 通路 周期 中 主要 有 三 部 分 延迟 : 

1 ) 将 被 选中 的 寄存 器 数据 送 至 A ARA B 总 线 的 时 间 。 

2) ALU 和 移 位 寄存 器 计算 的 时 间 。 

3 ) 将 结果 存 回 寄存 器 的 时 间 。 

图 4-31 中 是 一 个 新 的 三 总 线 的 体系 结构 ， 除 了 IFU 之 外 ， 它 还 包括 三 个 额外 的 锁 存 
器 (寄存 器 )， 每 条 总 线 的 中 间 都 有 一 个 。 每 个 周期 都 要 写 锁 存 器 。 这 些 锁 存 器 的 作用 是 
把 数据 通路 分 成 了 不 同 的 部 分 ， 相 互 之 间 可 以 独立 操作 。 我 们 把 这 种 设计 称 为 流水 线 型 的 
Mic-3 。 

这 些 额外 的 锁 存 器 对 我 们 有 什么 帮助 呢 ? 现在 我 们 可 以 花费 三 个 时 钟 周 期 来 使 用 数据 通 
路 : 第 一 个 周期 为 锁 存 器 A 和 B 加 载 数据 ， 第 二 个 周期 ，ALU 和 移 位 寄存 器 执行 运算 并 把 
结果 存 人 锁 存 器 C， 最 后 一 个 周期 把 锁 存 器 C 写 回 寄存 器 中 。 当 然 这 比 我 们 目前 的 情况 还 糟 。 
我 们 疯 了 吗 ? 〈 提示: 没 疯 。) 使 用 锁 存 器 可 以 带 来 下 面 两 方面 的 好 处 : 

1) 由 于 缩短 了 最 大 延迟 ， 因 此 时 钟 速度 可 以 提高 。 

2 ) 在 每 个 周期 中 都 可 以 使 用 数据 通路 的 所 有 部 分 。 

由 于 数据 通路 分 成 了 三 个 部 分 ， 其 最 大 延迟 就 缩短 了 ， 这 样 我 们 就 可 以 使 用 频率 更 高 的 
时 钟 。 我 们 可 以 假定 数据 通路 周期 分 成 三 部 分 之 后 ， 每 部 分 的 执行 时 间 大 约 是 原来 的 13， 这 
样 我 们 就 可 以 把 时 钟 速度 提高 三 倍 。( 这 可 能 并 不 完全 符合 实际 ， 因 为 我 们 在 数据 通路 中 又 增 
加 了 两 个 寄存 器 ， 但 是 近似 来 说 是 这 样 。) 

因为 我 们 在 前 面 曾经 假定 ， 所 有 的 内 存 读 写 操作 都 可 以 由 第 一 级 高 速 缓存 完成 ， 而 且 第 
一 级 高 速 缓存 和 寄存 器 是 用 相同 的 材料 制造 的 ， 因 此 我 们 可 以 假定 内 存 操作 只 需要 一 个 周期 。 
当然 实际 中 并 不 完全 是 这 样 。 

第 二 方面 的 好 处 是 提高 了 吞吐 率 而 不 是 加 快 了 单条 指令 的 执行 速度 。 在 Mic-2 中 ，ALU 
在 每 个 时 钟 周期 的 第 一 部 分 和 第 三 部 分 是 空闲 的 。 而 把 数据 通路 分 成 三 部 分 之 后 ， 我 们 在 每 
个 周期 中 都 可 以 使 用 ALU， 这 样 计算 机 的 工作 速度 就 是 原来 的 三 倍 。 
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我 们 来 看 看 Mic-3 的 数据 通路 是 如 何 工作 的 。 首 先 ， 我 们 要 解决 如 何 表示 锁 存 器 的 问题 。 
我 们 可 以 把 它们 称 为 锁 存 器 A、B 和 C 并 把 它们 当 作 寄存 器 处 理 ， 不 过 必须 记 住 数据 通路 的 
限制 。 图 4-32 中 给 出 了 Mic-2 中 实现 SWAP 的 微 代码 序列 。 


MAR = SP - l; rd 读 出 栈 中 第 2 个 字 
MAR = SP MAR 赋值 为 栈 项 指针 ， 准 备 将 读 出 的 第 2 TBA 


H = MDR; wr 把 新 的 TOS 保存 在 HP; 把 栈 的 第 二 个 字 写 人 栈 顶 
MDR = TOS 把 旧 的 TOS 拷贝 到 MDR 中 

MAR = SP— l; wr IAW TOS 写 人 栈 中 的 第 二 个 字 

TOS =H; goto (MBR1) ”修改 TOS 





图 4-32 Mic-2 中 的 SWAP 代码 


现在 我 们 来 看 看 在 Mic-3 中 是 如 何 实现 这 一 序列 的 。 请 记 住 现 在 数据 通路 需要 三 个 操作 
周期 : 一 个 周期 装 和 人 A 和 B， 一 个 周期 执行 运算 并 把 结果 装 人 C， 最 后 一 个 周期 把 结果 写 回 
寄存 器 。 我 们 把 每 个 周期 称 为 一 个 微 操 作 步 (microstep )。 

Mic-3 中 实现 的 SWAP 操作 如 图 4-33 所 示 。 周 期 1 时 ， 开 始 执行 swap1， 把 SP 拷贝 到 B, 
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这 步 操 作 和 A 无 关 ， 因 为 执行 B-1 操作 时 A 是 不 使 能 的 ( 参见 图 4-2 )。 为 了 简单 起 见 ， 我 们 将 
不 列 出 不 需要 的 赋值 。 在 周期 2 时， 我 们 执行 减法 运算 。 在 周期 3 中 ,结果 被 存 人 MAR, 在 周 
期 3 结束 前 启动 内 存 读 操作 ( 在 MAR 已 经 获得 值 之 后 )。 由 于 读 内 存 需要 一 个 周期 ， 因 此 直到 
周期 4 结束 前 才能 得 到 结果 ， 用 周期 4 对 MDR 赋值 来 表示 。 直 到 周期 5 才能 使 用 MDR 中 的 值 。 


C we [ swap? | swapa | swap | ewan | wao | 
oy | MAR=SP-1; rd | MAR= SP | -MDR wr | MOR=TOS | WAR=SP-1i wr | TOS=H goto (BRA) 
adere (aie | | 


B=H 
MA 





图 4.33 SWAP 在 Mic-3 中 的 实现 


现在 我 们 回 到 周期 2。 我 们 现在 把 swap 分 成 微 操作 步 并 启动 它们 。 在 周期 2 中 ,我 们 
可 以 把 SP 拷贝 到 B 中 ， 然 后 让 它 在 周期 3 时 通过 ALU 并 在 周期 4 保存 在 MAR 中 。 到 目前 
为 止 ， 一 切 顺利 。 很 明显 ， 如 果 我 们 可 以 保持 这 样 的 势头 ， 在 每 个 周期 都 启动 一 条 新 的 微 指 
S, 我们 就 可 以 使 计算 机 的 速度 提高 3 倍 。 这 是 因为 我 们 每 个 时 钟 周 期 都 可 以 发 送 一 条 微 指 
令 ， 而 Mic-3 的 时 钟 速度 是 Mic-2 的 3 倍 。 实 际 上 ， 我 们 实现 了 一 个 流水 线 型 的 CPU, 

然而 很 不 幸 ， 我 们 在 周期 3 遇 到 了 障碍 。 我 们 希望 在 周期 3 能 启动 微 指令 swap3， 但 是 
swap3 要 做 的 第 一 个 操作 是 让 MDR 通过 ALU， 而 MDR 直到 周期 5 时 才能 从 内 存 获 得 值 。 
这 种 由 于 等 待 前 一 个 微 操作 步 的 结果 而 使 下 一 个 微 操 作 步 不 能 启动 的 情况 称 为 真相 关 (true 
dependence ) 或 者 写 后 读 相 关 (RAW dependence )。 相 关 通 常 也 称 为 冒险 (hazard), RAW # 
示 Read After Write， 它 的 意思 是 某 个 微 操 作 步 希望 读 一 个 还 没有 写 人 值 的 寄存 器 。 这 里 我 们 
唯一 能 做 的 就 是 到 MDR 可 用 时 再 启动 swap3 ， 也 就 是 周期 5。 停 下 来 等 待 需要 的 值 称 为 延迟 
等 待 ( stalling )。 在 swap3 之 后 ， 我 们 又 可 以 每 个 周期 都 发 送 一 条 微 指 令 了 ， 因 为 不 再 有 相关 
的 情况 了 ， 虽 然 swap6 差点 就 出 现 了 相关 ， 它 读 swap 周期 写 和 人 的 互 寄存 器 。 如 果 swaps ik 
图 读 H 寄存器 ， 它 将 被 延迟 一 个 周期 。 

虽然 Mic-3 的 微 程 序 和 Mic-2 相 比 花费 了 更 多 的 周期 ， 但 是 它 仍然 比 Mic-2 速度 快 。 我 
们 设 Mic-3 的 周期 时 间 为 AT 纳 秒 ， 那 么 Mic-3 执行 SWAP 时 需要 11AT。 而 Mic-2 需要 6 
个 3AT 的 周期 ， 也 就 是 18AT 的 时 间 。 流 水 线 设 计 加 快 了 计算 机 的 运行 速度 ， 虽 然 在 中 间 
我 们 曾经 阻塞 了 一 次 以 避免 相关 。 

流水 线 是 所 有 的 现代 CPU 中 都 使 用 的 关键 技术 ， 因 此 需要 深入 地 理解 它 。 图 4-34 中 ， 
我 们 列 出 了 图 4-31 中 的 数据 通路 的 流水 线 操作 过 程 。 第 一 列表 示 周 期 1 中 的 操作 ， 第 二 列表 
示 周 期 2， 依次 类 推 (假定 没有 阻塞 ) 周期 1 中 指令 1 的 阴影 区 域 表 示 IFU 正在 取 指 令 1。 
一 个 时 钟 周期 之 后 ， 也 就 是 周期 2， 指令 1 需要 的 寄存 器 被 加 载 至 锁 存 器 A 和 B 中 ， 与 此 同 
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AY, IFU 开始 取 指 令 2， 图 4-34 中 用 两 个 阴影 表示 。 








时 间 一 一 
图 4-34 流水线 工作 过 程 的 图 示 


在 周期 3 时， 指令 1 开始 使 用 ALU 并 执行 移 位 操作 ， 指 令 2 加 载 的 数据 被 锁 存 到 A 和 
B 中 ， 同 时 开始 取 指 令 3。 最 后 ， 在 周期 4 中 , 4 条 指令 同时 工作 。 指 令 1 的 结果 存 人 寄存 器 ， 
ALU 执行 指令 2，A AB 锁 存 指令 3 的 数据 ， 同 时 取 指 令 4。 

如 果 我 们 画 出 指令 5 和 后 续 的 周期 ， 你 会 发 现 它们 和 周期 4 相同 : 数据 通路 的 所 有 4 部 
分 都 同时 独立 工作 。 这 种 设计 是 一 种 4 段 的 流水 线 ，4 段 分 别 是 取 指 令 、 存 人 操作 数 、ALU 
运算 和 将 结果 写 回 寄存 器 。 它 和 图 2-4a 中 的 流水 线 类 似 ， 区 别 是 没有 译 码 段 。 需 要 理解 的 重 
要 的 一 点 是 虽然 执行 每 条 指令 都 需要 4 个 时 钟 周期 ， 但 是 在 每 个 时 钟 周期 中 ， 有 一 条 新 指令 
启动 的 同时 都 有 一 条 旧 指 令 完成 。 
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图 4-34 的 另 一 种 方式 是 按照 指令 的 顺序 从 水 平方 向 看 。 对 指令 1 来 说 ， 周 期 1 时 IFU 取 
48, 周期 2 时 ， 它 的 寄存 器 被 发 送 到 A 总 线 和 B 总 线 上 。 周 期 3 时 ,ALU 和 移 位 器 开始 工作 。 
最 后 ， 在 周期 4 中， 将 结果 存 回 寄存 器 。 需 要 注意 的 是 ，CPU 中 共有 ,4 部 分 硬件 可 用 ， 在 每 
个 周期 中 ， 某 条 指令 只 能 使 用 其 中 的 一 个 部 分 ， 其 他 的 部 分 由 另外 的 指令 使 用 。 

我 们 可 以 把 这 种 流水 线 设计 和 汽车 制造 厂 中 装配 汽车 的 生产 线 进 行 类 比 。 为 了 抽象 出 流 
水 线 的 本 质 特 征 ， 我 们 假定 有 一 面 大 锣 ， 每 分 钟 敲 一 次 ， 在 这 段 时 间 肉 ， 所 有 的 汽车 都 向 前 
移动 一 站 。 每 一 站 的 工人 都 对 面前 的 汽车 执行 某 道 工序 ， 比 如 安装 方向 盘 或 者 刹车 装置 。 每 
URN ( 也 就 是 每 个 周期 )， 都 有 一 辆 新 车 进入 装配 线 并 有 一 辆 完成 的 车 驶 出 装配 线 。 这 
样 ， 即 使 完成 一 辆 汽车 需要 数 百 个 周期 ,但 在 每 个 周期 中 都 会 完成 一 辆 汽车 。 无 论 生产 一 辆 
汽车 需要 多 长 时 间 ， 工 厂 都 可 以 每 分 钟 生产 一 辆 汽车 。 这 就 是 流水 线 的 威力 ， 它 在 CPU 中 的 
效果 和 汽车 工厂 中 的 效果 是 一 样 的 。 


44.5 七 段 流水 线 设计 : Mic-4 


我 们 前 面 已 经 解释 过 ， 每 条 微 指 令 都 需要 指定 自己 的 后 续 微 指令 。 大 多 数 微 指令 选择 当 
前 序列 中 的 下 一 条 微 指令 ， 而 最 后 一 条 微 指令 ， 例 如 swap6， 通 常 执行 多 路 转移 。 这 会 使 流 
水 线 停 滞 ， 因 为 不 可 能 执行 预 取 。 我 们 需要 采用 更 有 效 的 方式 来 处 理 这 一 问题 。 

我 们 的 下 一 种 ( 也 是 最 后 一 种 ) 微 体 系 结构 是 Mic-4。Mic-4 的 主要 部 分 如 图 4-35 所 示 ， 
为 了 便于 说 明 概念 ， 图 中 没有 列 出 太 多 的 细节 。 和 Mic-3 一 样 ，Mic-4 也 有 一 个 IFU 单元 从 
内 存 中 预 取 指令 字 并 管理 不 同 的 MBR。 
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图 4-35 Mic-4 的 主要 部 件 
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IFU 把 读 取 的 字 节 流 送 和 一 个 新 的 单元 ， 译 码 单元 。 该 单元 有 一 个 内 部 的 ROM， 使 用 
UVM 操作 码 作 为 索引 。 每 项 ( 也 就 是 每 行 ) 包括 两 部 分 : 该 条 VM 指令 的 长 度 和 指向 微 指 
S ROM 的 索引 。IJVM 指令 长 度 用 于 指示 译 码 单元 如 何 将 到 达 的 字 节 流 解析 为 指令 。 因 此 译 
码 单 元 知道 哪些 字 节 是 操作 码 ， 哪 些 字 节 是 操作 数 。 如 果 当 前 指令 的 长 度 是 1 个 字 节 (例如 
POP 指令 )， 译 码 单元 就 知道 下 一 个 字 节 是 (下 一 条 指令 的 ) 操作 码 。 如 果 当 前 指令 长 度 是 两 
个 字 节 ， 那 么 译 码 单 元 就 知道 下 一 个 字 节 是 操作 数 ， 再 下 面 一 个 字 节 才 是 另 一 个 操作 码 (下 
一 条 指令 的 )。 如 果 当 前 字 节 是 WIDE 前 级 ， 下 一 个 字 节 就 会 被 转换 成 特殊 的 宽 操 作 码 ， 例 
如 ，WIDE+ILOAD 会 转换 成 WIDE ILOAD。 

译 码 单 元 中 的 索引 值 指向 下 一 个 单元 ， 即 队列 单元 ( queuing unit) 中 的 微 指 令 ROM 表 。 
队列 单元 包括 一 些 逻 辑 和 两 张 内 部 表 ， 一 张 在 ROM 中 ,一 张 在 RAM 中 。ROM 中 是 微 程序 ， 
每 条 IJVM 指令 在 此 ROM 中 都 有 一 些 连续 的 项 ， 称 为 微 操作 ( micro-operation )。 这 些 项 必须 
按照 顺序 排列 ， 因 此 Mic-2 中 使 用 的 从 wide_iload2 跳 转 到 iload2 的 小 技巧 就 不 能 用 了 。 每 个 
IJVM 序列 都 必须 是 完整 的 ， 在 某 些 情况 下 可 能 会 出 现 重 复 序列 。 

微 操 作 和 图 4-5 中 的 微 指令 类 似 ， 只 不 过 没有 NEXT_ADDRESS 字段 和 JAM 字段 ， 而 
且 还 增加 了 一 个 新 的 定义 A 总 线 输入 的 编码 字段 。 还 增加 了 两 个 新 的 数据 位 : Final 和 Goto。 
Final 位 在 每 段 IJVM 微 操 作 序 列 的 最 后 一 条 微 操 作 处 设置 以 标记 微 操 作 序 列 结束 。 设 置 Goto 
位 则 表示 微 操 作 是 条 件 跳 转 的 微 操 作 。 它 们 和 正常 微 操作 的 格式 不 同 ， 由 JAM 位 和 指向 微 操 
作 ROM 的 索引 值 组 成 。 以 前 那 种 既 能 执行 数据 通路 操作 又 能 执行 条 件 微 跳 转 的 微 指令 ( 例 
如 ，iat4 ) 被 分 成 了 两 类 微 操作 。 

队列 单元 的 工作 方式 如 下 。 它 接收 一 个 来 自 译 码 单 元 的 微 操作 ROM 的 索引 值 。 然 后 
查找 此 微 操 作 并 拷贝 到 一 个 内 部 队列 中 。 然 后 再 把 下 一 条 微 操作 也 拷贝 到 该 队列 中 ， 然 后 
拷贝 再 下 一 条 微 操作 ， 直 到 拷贝 到 带 final 位 的 微 操 作为 止 。 拷 贝 完 这 条 微 操 作 后 才 停止 。 
如 果 没 有 遇 到 带 Goto 位 的 微 操作 ， 而 且 队 列 中 仍然 有 空间 ， 队 列 单元 将 给 译 码 单元 发 回 
一 个 确认 信号 。 当 译 码 单元 收 到 确认 信号 后 ， 就 把 下 一 条 IJVM 指令 的 索引 值 发 送 给 队列 
单元 。 ) T ， 

使 用 这 种 方式 ， 内 存 中 的 JVM 指令 序列 将 最 终 转换 成 队列 中 的 微 操 作 序 列 。 这 些微 操 
作 将 送 往 MIR， 然 后 产生 控制 数据 通路 的 控制 信号 。 但 是 ,我们 还 必须 考虑 另 一 个 因素 : th 
操作 中 的 字段 不 可 能 同时 被 用 到 。 在 第 一 个 周期 时 使 用 A 和 了 B， 第 二 个 周期 中 使 用 ALU， 第 
三 个 周期 时 使 用 C 字段 ， 第 四 个 周期 是 所 有 的 内 存 操作 。 

为 了 使 Mic-3 能 正确 工作 ， 我 们 在 图 4-35 中 使 用 了 4 个 独立 的 MIR。 在 每 个 时 钟 周期 的 
开始 处 (图 4-3 中 的 Aw), MIR3 被 拷贝 到 MIR4 中 ，MIR2 拷贝 到 MIR3 中 ;MIR1 拷贝 到 
MIR2 中 ， 而 MIR1 中 则 加 载 一 条 来 自 微 操作 队列 的 新 的 微 操 作 。 这 样 ， 每 个 MIR 都 可 以 发 
出 控制 信号 ， 但 是 每 个 都 只 有 一 部 分 可 用 。MIR1 中 的 A 和 B 字段 用 于 选择 驱动 锁 存 器 A 和 
B 的 寄存 器 ， 而 MIR1 中 的 ALU 字段 则 没有 被 使 用 也 没有 连接 到 数据 通路 上 。 

一 个 时 钟 周期 之 后 ，MIR1 中 的 微 操 作 移 到 了 MIR 中 ， 这 时 被 选中 的 寄存 器 已 经 位 于 
锁 存 器 A 和 B 中 等 待 进一步 处 理 了 。MIR2 的 ALU 字段 用 于 驱动 ALU。 在 下 一 个 周期 中 ，C 
字段 用 于 把 结果 写 回 寄 存 器 。 在 这 之 后 ， 这 条 微 操 作 将 到 达 MIR4 并 使 用 刚 装 入 数据 的 MAR 
(如 果 是 写 操作 ， 还 要 用 到 MDR ) 启动 需要 的 内 存 操作 。 

Mic-4 中 需要 讨论 的 最 后 一 个 问题 是 微 跳 转 ( microbranch), 某 些 JVM 指 令 ， 例 如 
IFLT， 需 要 根据 N 位 的 值 执行 条 件 跳 转 。 如 果 发 生 微 跳 转 ， 流 水 线 就 不 能 继续 工作 了 。 为 了 
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处 理 这 种 情况 ， 我 们 在 微 操 作 中 增加 了 Goto 位 。 当 队列 单元 装 入 一 条 设置 了 Goto 位 的 微 操 
作 时 ， 它 就 会 得 知 流水 线 遇 到 了 障碍 ， 因 此 就 不 会 向 译 码 单元 发 送 确认 信号 。 这 时 计算 机 就 
阻塞 在 这 条 微 操 作 中 直到 这 条 微 操作 处 理 完成 。 

很 有 可 能 出 现 这 样 的 情况 : 跳 转 之 后 的 某 些 JVM 指令 已 经 进入 了 译 码 单元 (但 是 还 没 
有 进入 队列 单元 )， 因 为 队列 单元 遇 到 设置 了 Goto 位 的 微 操 作 后 没有 发 回 确认 (也 就 是 继续 ) 
信和 号。 需要 特殊 的 硬件 和 机 制 来 清除 这 些 垃圾 并 回 到 正确 的 执行 路 径 上 来 ， 这 些 内容 超 出 了 
本 书 的 范围 。 当 Edsger Dijkstra 写作 那 封 著名 的 信 “GOTO 语句 十 分 有 害 ”( Dijkstra, 1968a ) 
时 ,他 可 能 没有 意识 到 他 是 多 么 的 正确 。 

从 Mic-1 开始 ,我 们 已 经 前 进 了 很 远 。Mic-1 的 硬件 非常 简单 ， 几 乎 所 有 的 控制 都 是 软 
件 完 成 的 。 而 Mic-4 是 高 度 流 水 线 的 设计 ， 它 有 七 段 流水 线 而 且 硬 件 相当 复杂 。 流 水 线 过 程 
如 图 4-36 所 示 ， 加 圈 的 数字 表示 和 图 4-35 相应 的 部 分 对 应 。Mic-4 自动 从 内 存 中 预 取 字 节 流 ， 
把 它们 译 码 成 UVM 指令 ， 使 用 ROM 把 它们 转换 成 微 操作 序列 ， 需 要 的 话 还 要 对 它们 进行 排 
队 。 如 果 需 要 ， 流 水 线 的 前 三 段 可 以 使 用 数据 通路 的 时 钟 ， 但 是 不 可 能 一 直 使 用 该 时 钟 持续 
工作 。 例 如 ，IFU 不 可 能 每 个 时 钟 周期 都 向 译 码 单元 送 入 一 条 新 的 IJVM 操作 码 ， 因 为 IVM 
指令 执行 时 需要 多 个 周期 ， 如 果 不 停 地 送 入 新 指令 ， 队 列 很 快 就 会 溢出 。 
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图 4-36 Mic-4 的 流水 线 


每 个 时 钟 周期 ，MIR 都 向 前 移动 一 个 位 置 ， 队 列 底部 的 微 操 作 将 拷贝 到 MIR1 中 开始 执 
行 。 来 自 四 个 MIR 的 控制 信号 将 通过 数据 通路 传播 并 产生 相应 的 动作 。 每 个 MIR 都 控制 数 
据 通路 的 不 同 部 分 ， 这 就 产生 了 不 同 的 微 操 作 步 。 

这 样 ， 我 们 完成 了 一 个 深度 流水 的 CPU 的 设计 ， 这 种 技术 可 以 极 大 地 缩短 不 同 的 执 
行 步 并 提高 时 钟 频率 。 许 多 CPU 的 设计 都 采用 了 这 种 基本 思想 ， 特 别 是 那些 必须 实现 较 老 
(CISC ) 指令 集 的 CPU。 比如 Core i7， 它 的 设计 从 概念 上 说 和 Mic-4 很 类 似 ， 本 章 后 面 将 会 
具体 讨论 。 


4.5 提高 性 能 


所 有 的 计算 机 厂商 都 希望 他 们 的 系统 运行 得 越 快 越 好 。 本 节 我 们 将 讨论 一 些 正在 研究 中 
的 用 于 提高 系统 ( 主要 是 CPU 和 内 存 ) 性 能 的 先进 技术 。 计 算 机 工业 界 中 激烈 的 竞争 使 得 提 
高 计算 机 性 能 的 新 思想 变 成 产品 的 时 间 越 来 越 短 。 因 此 ， 我 们 将 要 讨论 的 大 部 分 思想 已 经 在 
许多 产品 中 使 用 了 。 

我 们 将 要 讨论 的 技术 可 以 粗略 地 分 成 两 大 类 : 具体 实现 的 改进 和 体系 结构 的 改善 。 具 体 
实现 的 改进 可 以 通过 制造 新 的 CPU 和 内 存 使 系统 在 体系 结构 不 变 的 情况 下 运行 得 更 快 。 改 
变 实现 而 不 改变 体系 结构 意味 着 原 有 的 程序 可 以 运行 在 新 的 计算 机 上 ， 这 是 一 个 主要 的 卖 
点 。 改 进 实现 的 一 种 方式 是 使 用 更 快 的 时 钟 ， 但 是 这 并 不 是 唯一 的 办 法 。 从 80386 到 80486、 
Pentium， 直 到 新 近 推 出 的 Core i7 等 所 获得 的 性 能 改善 都 是 来 自 于 更 好 的 实现 ， 因 为 它们 的 


218 $A 


体系 结构 基本 上 是 相同 的 。 

某 些 改进 只 能 通过 改变 体系 结构 来 实现 。 有 时 候 ， 这 种 改变 是 增加 一 些 部 件 ， 例 如 增加 
新 的 指令 或 者 寄存 器 ， 这 样 原来 的 程序 就 可 以 继续 在 新 的 体系 结构 上 运行 。 在 这 种 情况 下 ， 
为 了 充分 发 挥 全 部 的 性 能 ， 必 须 改变 软件 ， 至 少 需 要 使 用 能 够 充分 发 挥 新 特性 的 新 编译 器 来 
重新 编译 软件 。 

BÈ, 经 过 了 几 十 年 的 发 展 后 ,设计 者 们 认识 到 原 有 的 体系 结构 已 经 不 能 适应 新 的 需要 
了 ， 唯 一 的 办 法 就 是 重新 设计 新 的 体系 结构 。20 世纪 80 年 代 出 现 的 RISC 体系 结构 就 是 这 样 
一 种 突破 : 这 是 现在 流行 的 另 一 种 体系 结构 。 第 5 章 中 我 们 将 研究 RISC 体系 结构 的 一 个 实 
fil: Intel 的 IA-64。 

本 节 的 剩余 部 分 将 研究 四 种 不 同 的 、 提 高 CPU 性 能 的 技术 。 首 先是 三 种 有 效 的 实现 改 
善 ， 最 后 是 一 种 需要 体系 结构 的 支持 才能 发 挥 最 大 效果 的 方法 。 这 些 技术 是 高 速 缓存 、 分 支 
预测 、 使 用 寄存 器 重 命名 的 乱 序 执行 和 推测 执行 。 


4.5.1 高速 缓存 


在 整个 计算 机 发 展 历史 中 ， 最 富 于 挑战 性 的 任务 莫 过 于 设计 一 种 能 够 以 处 理 器 的 速度 提 
供 操作 数 的 存储 系统 。 但 是 存储 器 速度 的 增长 却 和 处 理 器 速度 的 高 速 增长 不 匹配 。 和 CPU 相 
比 ， 在 过 去 的 几 十 年 里 存储 器 变 得 越 来 越 慢 了 。 鉴 于 主 存储 器 在 整个 计算 机 系统 中 的 重要 作 
用 ， 这 种 情况 极 大 地 限制 了 计算 机 系统 性 能 的 提高 。 同 时 也 促使 人 们 去 研究 如 何 解决 内 存 速 
度 慢 于 CPU 速度 这 一 正 变 得 越 来 越 严重 的 问题 。 

现代 处 理 器 在 延 时 ( 提供 操作 数 的 延迟 时 间 ) 和 带宽 ( 单位 时 间 内 能 提供 的 数据 量 ) 等 
方面 对 内 存 都 要 求 很 高 ， 麻 烦 的 是 内 存 系统 的 这 两 个 方面 在 很 大 程度 上 是 相互 矛盾 的 。 许 多 
增 大 带宽 的 技术 也 会 增加 延 时 。 例 如 ，Mic-3 中 使 用 的 流水 线 技术 可 以 用 于 内 存 系统 ， 可 以 通 
过 重 到 多 个 内 存 请 求 来 提高 效率 。 但 是 很 不 幸 ， 和 Mic-3 一 样 ， 这 样 做 会 增 大 每 次 内 存 访问 
的 延 时 。 随 着 处 理 器 速度 的 提高 ， 设 计 能 够 在 一 个 或 者 两 个 时 钟 周期 之 内 提供 操作 数 的 内 存 
系统 正 变 得 越 来 越 困难 。 

解决 问题 的 一 种 方案 是 提供 高 速 缓存 (cache )。 我 们 在 2.2.5 节 中 曾经 讨论 过 ，cache 是 
一 个 存放 最 近 刚 被 使 用 的 内 存 字 的 小 的 高 速 存 储 器 ， 它 可 以 快速 访问 这 些 内 存 字 。 如 果 需 要 
的 内 存 字 大 部 分 都 在 cache 里 ， 那 就 可 以 极 大 地 降低 存储 器 的 延 时 。 

既 能 提高 带宽 又 能 减 小 延 时 的 最 有 效 的 技术 是 使 用 多 级 cache。 基 本 的 技术 是 分 别 为 指令 
和 数据 提供 高 速 缓存 ， 这 种 称 为 分 离 式 高 速 缓存 ( split cache) 的 技术 效率 很 高 。 它 有 这 样 一 
些 优点 。 首 先 ， 可 以 在 每 个 cache 中 独立 地 进行 内 存 操作 ， 这 样 可 以 使 存储 系统 的 带宽 增 大 


` 一 信 。 这 也 是 我 们 在 Mic-l 中 提供 两 个 内 存 端口 的 原因 : 每 个 端口 都 可 以 有 自己 的 cache。 请 


注意 ， 每 个 cache 都 独立 地 访问 主 存储 器 。 

目前 使 用 的 许多 内 存 系统 都 比 上 面 讨 论 的 复杂 ， 都 使 用 了 额外 的 cache 一 一 第 2 级 
cache， 它 位 于 1 级 的 指令 和 数据 cache 以 及 主 存 之 间 。 实 际 上 ， 更 复杂 的 内 存 系统 可 能 需要 
三 级 或 者 更 多 级 的 cache。 图 4-37 中 的 系统 有 三 级 caches CPU 芯片 本 身 包括 一 个 小 的 指令 
cache 和 一 个 小 的 数据 cache， 容 量 一 般 为 16 ~ 64KB。 还 有 第 2 级 cache， 它 不 在 CPU 芯片 
内 部 ， 但 是 和 CPU 封装 在 一 起 ， 在 CPU 芯片 的 旁边 ， 通 过 高 速 通道 和 CPU 相连 。 此 cache 
是 通用 的 ， 既 包括 数据 也 包括 指令 ， 其 典型 容量 为 S12KB ~ 1MB。 第 3 级 的 cache 位 于 处 
理 器 板 上 ， 它 由 几 兆 字 节 的 SRAM 组 成 ， 比 主 存 的 DRAM 速度 快 很 多 。cache 的 内 容 是 逐 级 
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包含 的 ， 第 1 级 cache 的 全 部 内 容 都 在 第 2 级 cache 中 , 第 2 级 cache 的 全 部 内 容 都 在 第 3 级 
cache 中 。 


CPU 
封装 


LI] ED cache 
处 理 
器 板 键盘 图 形 磁盘 
控制 器 控制 器 控制 器 











分 离 的 第 1 级 指令 和 数据 cache 板 级 的 cache (SRAM) 
图 4-37 使 用 三 级 cache 的 系统 


cache 利用 两 种 地 址 局 部 性 来 实现 其 目标 。 空 间 局 部 性 (spatial locality) 意思 是 最 近 被 访 
问 的 地 址 附近 的 地 址 很 可 能 在 将 来 被 访问 。cache 使 用 这 种 特性 一 次 把 比 实际 需要 的 更 多 的 数 ”603] 
据 调 人 ， 和 希望 它们 将 来 能 被 用 到 。 时 间 局 部 性 (temporal locality) 意思 是 最 近 访问 的 地 址 将 
会 被 再 次 访问 。 这 种 情况 在 栈 顶 的 内 存 地 址 或 者 循环 内 的 指令 中 很 常见 。cache 的 设计 者 在 利 
用 时 间 局 部 性 时 需要 考虑 当 cache 不 命中 时 如 何苦 换 。 许 多 利用 时 间 局 部 性 的 cache 的 替换 算 
法 都 把 最 近 最 不 常用 的 项 替换 出 去 。 

所 有 的 cache 都 使 用 下 面 的 模型 。 主 存 被 分 成 固定 大 小 的 称 为 cache RHR, — 
cache 块 通常 由 4 ~ 64 个 连续 的 字 节 组 成 。cache 块 从 0 开始 连续 编号 ， 因 此 如 果 使 用 32 
个 字 节 的 块 ， 块 0 就 是 字 节 0 ~ 31, 块 1 就 是 字 节 32 ~ 63， 依 次 类 推 。 任 何 时 候 都 有 某 些 
块 位 于 高 速 缓存 中 。 当 需 要 访问 内 存 时 ，cache 控制 器 电路 检查 需要 访问 的 字 是 否 在 cache 
中 。 如 果 在 ， 就 使 用 该 值 ， 这 样 可 以 节约 一 次 内 存 访问 。 如 果 该 字 不 在 内 存 中 ， 将 从 ;cache 
- 审 移 去 某 些 块 ， 并 用 从 内 存 中 或 者 从 更 低级 别 的 cache 中 取出 的 块 替 换 这些 块 。 替 换 时 有 多 
种 机 制 ， 但 是 其 基本 思想 是 在 cache 中 保存 最 常用 的 块 ， 这 样 可 以 最 大 限度 地 提高 cache fit 
中 率 。 

1. 直接 映射 的 高 速 缓存 

直接 映射 的 高 速 缓存 (direct-mapped cache ) 是 最 简单 的 cache. A] 4-38a 中 是 一 个 单 层 
的 直接 映射 cache 的 例子 。 此 cache 共 包 括 2048 项 。cache 中 的 每 项 ( 也 就 是 每 块 ) 都 保存 来 
自主 存 的 一 个 cache 块 。 如 果 使 用 32 字 节 的 cache RAY) ( 以 此 作为 例子 )，cache 一 共 可 以 
保存 64KB 的 数据 。 每 个 cache 项 包括 以 下 三 部 分 : 

1) 有 效 位 (Valid ) 用 于 表示 该 项 中 的 数据 是 否 有 效 。 当 系统 刚 启动 时 ， 所 有 的 项 都 被 
标记 为 无 效 。 

2) 标记 字段 (Tag) 是 一 个 唯一 的 16 位 的 值 ， 它 表示 数据 块 在 内 存 中 相应 的 位 置 。 

3) 数据 字段 (Data) 是 相应 内 存 位 置 的 数据 的 拷贝 。 该 字段 包括 32 个 字 节 。 

采用 直接 映射 高 速 缓存 ， 每 个 内 存 字 只 能 保存 在 唯一 的 cache 位 置 上 。 给 定 一 个 内 存 地 
址 ，cache 中 只 有 一 个 位 置 和 它 对 应 。 如 果 该 位 置 上 没有 此 项 ， 那么 它 就 不 在 cache 中 。 存 取 
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cache 中 的 数据 时 ， 地 址 被 分 为 如 下 四 个 部 分 ( 如 图 4-38b 所 示 ): 


1) 和 cache 项 中 的 Tag 位 对 应 的 TAG 字段 。 

2) 保存 相应 的 数据 的 cache 块 的 块 号 字段 (LINE )， 如 果 数 据 在 其 中 的 话 。 

3) ZZB (WORD ) 表示 需要 使 用 该 块 中 的 哪个 字 。 

4) 字 节 字 段 (BYTE ) 通常 不 用 ， 但 是 如 果 请 求 的 是 一 个 单独 的 字 节 ， 它 就 用 于 指明 字 
中 的 哪 一 个 字 节 是 需要 的 。 对 于 只 支持 32 位 字 的 cache 来 说 ， 该 字段 总 是 0。 














Valid 
使 用 该 表 项 的 地 址 
Ta Data 
表 项 
2047 65 504 ~ 65 535, 131 040 ~ 131 071, … 
7 
6 
5 
4 
3 96 ~ 127, 65 632 ~ 65 663, 131 168 ~ 131 199 
2 64 ~ 95, 65 600 ~ 65 631, 131 136 ~ 131 167, --- 
1 32 ~ 63, 65 568 ~ 65 599, 131 104 ~ 131 135, =~ 
0 0 ~31, 65 536 ~ 65 567, 131 072 ~ 131 103, --- 
a) 直接 映射 的 cache 
Bits 16 11 3 2 
TAG LINE WORD |BYTE 
b) 32 位 地 址 
图 4-38 


当 CPU 产生 一 个 内 存 地 址 时 ， 硬 件 从 地 址 中 取出 11 位 的 LINE 字段 ， 并 使 用 该 字段 到 
2048 个 项 中 进 块 检 索 。 如 果 该 项 是 有 效 的 ， 就 比较 内 存 地 址 的 TAG 字段 称 此 项 的 Tag 字段 。 
如 果 相 同 ， 就 说 明 cache 项 中 保存 的 是 需要 的 字 ， 这 种 情况 称 为 cache 命中 (cache hit )。 如 
果 命 中 ， 那 么 就 可 以 直接 使 用 cache 中 的 字 ， 而 不 必 访 问 内 存 。 当 然 ， 还 需要 从 cache SUPR 
出 需要 的 字 ， 而 该 项 中 其 他 的 部 分 是 没有 用 的 。 如 果 该 项 是 无 效 的 ， 或 者 tag 不 匹配 ， 就 登 
味 着 需要 的 项 不 在 cache 中 ， 这 称 为 cache 缺失 (cache miss )。 在 这 种 情况 下 ， 就 从 内 存 中 取 
出 32 字 节 的 cache 块 并 保存 在 cache 项 中 ， 替换 掉 现在 的 项 。 但是， 如 果 目 前 的 cache 项 已 
经 被 修改 过 ， 那 么 在 覆 写 它 之 前 必须 首先 把 它 写 回 主 存 。 

虽然 决策 过 程 比较 复杂 ， 但 是 访问 一 个 需要 的 字 仍 然 相 当 快 。 只 要 地 址 是 已 知 的 ， 那 么 
如 果 该 字 在 cache 中 ， 它 在 cache 中 的 位 置 就 是 已 知 的 。 这 就 意味 着 判断 该 字 是 否 有 效 〈 通 过 
比较 tag ) 和 从 cache 中 读 出 该 字 并 送 给 处 理 器 可 以 同步 进行 。 这 样 处 理 器 可 以 从 cache 中 同 
步 读 取 一 个 字 ， 甚 至 在 得 知 该 字 是 否 有 效 之 前 处 理 器 就 可 以 得 到 它 。 

这 种 映射 机 制 把 连续 的 内 存 块 映射 到 连续 的 cache 项 中 。 实 际 上 ， 最 多 64KB 字 节 的 连 
续 数 据 都 可 以 存放 在 cache 中 。 但 是 ， 如 果 两 块 的 地 址 之 差 正好 是 64KB ( 65 536 个 字 节 ) 或 
者 是 64KB 的 整数 倍 ， 那 么 这 两 块 就 不 能 同时 保存 在 cache 中 ( 因为 它们 的 LINE 值 相同 )。 
举例 来 说 ， 如 果 程 序 访 问 地 址 X 处 的 数据 ， 而 下 一 条 指令 位 于 XX+65 536 (或 者 任何 位 于 同一 
块 的 其 他 地 址 )， 那 么 这 条 指令 就 会 迫使 cache 项 发 生 覆 写 。 如 果 这 种 情况 经 常 发 生 ， 就 会 导 
致 性 能 变 得 很 差 。 实 际 上 ， 最 差 情况 下 的 cache 性 能 比 没有 cache 时 还 要 差 ， 因 为 每 次 内 存 操 
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作 都 要 读 完 整 的 cache 块 而 不 仅仅 是 一 个 字 。 

直接 映射 的 cache 是 最 常用 的 一 种 cache， 它 的 执行 效率 很 高 ， 因 为 上 面 讨论 的 冲突 情况 
实际 上 很 少 发 生 ,， 或 者 说 几乎 完全 不 可 能 。 例 如 ,一 个 有 智能 的 编译 器 在 向 主 存 中 存放 指令 
和 数据 时 会 考虑 到 冲突 情况 。 请 注意 ， 如 果 系 统 中 使 用 了 分 离 的 指令 和 数据 cache, 那么 上 面 
讨论 的 特殊 情况 就 不 会 发 生 ， 因 为 发 生 冲 突 的 访问 请 求 位 于 不 同 的 cache 中 。 因 此 ， 使 用 两 
个 cache 比 一 个 cache 好 : 可 以 更 灵活 地 处 理 内 存 访问 冲突 。 

2. 组 相连 高 速 缓存 

正如 上 面 提 到 的 ， 内 存 中 的 许多 不 同 的 块 会 竞争 相同 的 cache 项 。 在 使 用 图 4-38a 中 
的 cache 时 ， 如 果 程 序 频繁 地 使 用 地 址 0 和 地 址 65 536 的 字 ， 那 就 会 经 常 发 生 冲 突 ， 每 次 对 
其 中 之 一 的 访问 都 会 使 cache 项 发 生 替 换 。 解 决 该 问题 的 一 种 方案 是 允许 一 个 cache 项 中 有 
两 块 或 者 更 多 块 。 每 个 地 址 可 以 对 应 nn 个 cache 项 的 高 速 缓存 称 为 n 路 组 相连 (n-way set- 
associative) 高 速 缓存 。 图 4-39 中 是 一 个 四 路 组 相连 的 高 速 缓 存 。 
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表 项 A 表 项 B 表 项 C 表 项 D 
图 4-39 四 路 组 相连 cache 


”组 相连 高 速 缓存 从 原理 上 说 要 比 直接 映射 的 高 速 缓存 复杂 ， 因 为 虽然 可 以 从 需要 访问 的 
内 存 地 址 中 计算 出 cache 项 的 确切 位 置 ,但 是 需要 依次 检查 n 个 cache 项 来 确定 要 访问 的 地 址 
是 否 在 cache 中 。 尽 管 如 此 ， 经 验 仍然 告诉 我 们 两 路 和 四 路 组 相连 cache 的 性 能 是 值得 花费 这 
些 额 外 的 硬件 费用 的 。 

使 用 组 相连 cache 时 ， 设计 者 需要 选择 替换 算法 。 也 就 是 说 ， 当 一 个 新 的 项 要 进入 cache 
时 ， 把 哪 一 项 替换 出 去 。 当 然 ， 最 优 的 决策 需要 知道 将 来 的 内 存 访问 情况 ， 目 前 很 常用 的 最 
近 最 少 使 用 LRU ( Least Recently Used) 算法 是 一 个 很 好 的 算法 。 该 算法 把 被 访问 的 内 存 地 
址 可 能 用 到 的 cache 块 按 顺序 记录 在 一 张 表 中 。 当 一 个 现 有 的 块 被 访问 时 ， 它 修改 该 表 ， 标 
记 该 项 为 最 近 使 用 。 当 需要 替换 某 项 时 ， 该 表 中 的 最 后 一 项 ， 也 就 是 最 不 常用 的 一 项 ， 将 被 
替换 。 

考虑 下 面 的 极端 情况 ， 一 个 共有 2048 项 的 cache 按照 2048 路 组 相连 cache 组 织 ， 这 样 
一 共 只 有 一 组 ， 组 中 共有 2048 项 。 这 样 ， 所 有 的 内 存 地 址 都 映射 在 同一 组 上 ， 查 找 时 就 需 
要 比较 cache 中 所 有 2048 个 地 址 的 标记 。 请 注意 ， 这 时 每 项 都 必须 有 标记 比较 逻辑 。 由 于 
LINE 字段 的 长 度 为 0，TAG 字段 就 包含 了 整个 地 址 字段 〈 不 包括 WORD 和 BYTE 字段 )。 更 
进一步 说 ， 当 替换 一 个 cache 块 时 ， 所 有 2048 块 都 有 可 能 被 蔡 换 。 管 理 2048 项 的 访问 次 序 
需要 记录 大 量 的 信息 ， 这 使 LRU 算法 变 得 不 可 行 。( 请 记 住 ， 这 张 表 在 每 次 内 存 操作 时 都 要 
更 新 ， 而 不 是 只 在 缺失 时 更 新 。) 令 人 惊讶 的 是 ， 组 数 多 的 组 相连 cache 和 组 数 少 的 组 相连 
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cache 相 比 ， 在 大 多 数 情况 下 性 能 并 不 高 ， 在 某 些 情况 下 甚至 更 糟糕 。 出 于 这 些 原 因 ， 大 于 四 
路 的 组 相连 cache 很 不 常用 。 

最 后 一 个 问题 是 cache 如 何 处 理 写 操 作 。 当 处 理 器 写 一 个 字 时 ， 如 果 该 字 在 cache 中 ， 
很 显然 ， 要 人 么 把 cache 中 的 字 一 块 更 新 ， 要 么 把 该 项 抛弃 。 几 乎 所 有 的 设计 都 选择 了 更 新 
cache。 但 是 如 何 更 新 主 存 中 的 拷贝 呢 ? 这 一 操作 可 以 延迟 到 此 cache 块 将 被 LRU 算法 替换 
出 去 时 再 进行 。 做 出 选择 很 困难 ， 因 为 没有 绝对 好 的 方案 。 立 即 更 新 主 存 的 方案 称 为 写 直达 
( write through )。 这 种 方案 比较 简单 ， 易 于 实现 ， 而 且 可 靠 性 好 ， 因 为 内 存 中 的 数据 总 是 最 新 
的 ， 如 果 发 生 了 某 种 错误 而 必须 恢复 内 存 的 状态 时 ， 这 一 特点 就 很 有 帮助 。 但 是 ， 写 直达 法 
需要 对 内 存 执行 更 多 的 写 操 作 。 因 此 前 一 种 更 复杂 的 方案 就 更 为 常用 ， 这 种 方案 称 为 拖 后 写 
( write deferred ) 或 者 写 回 〈 write back )。 

还 有 一 个 和 写 操作 相关 问题 需要 讨论 : 对 当前 不 在 cache 中 的 地 址 执行 写 操 作 时 该 如 
何 处 理 呢 ? 是 把 数据 调 人 cache， 还 是 只 对 内 存 执行 写 操作 ? 同样 ， 没 有 一 种 答案 是 绝对 正 
确 的 。 大 多 数 使 用 拖 后 写 的 cache 并 不 直接 把 数据 写 和 内存 ， 而 是 把 发 生 写 缺 失 的 块 调 人 
cache， 这 种 技术 称 为 写 分 配 (write allocation )。 而 另 一 方面 ， 使 用 写 直 达 的 cache， 在 写 操 作 
时 并 不 分 配 cache 块 ， 因 为 这 样 会 使 本 来 比较 简单 的 设计 变 得 复杂 。 只 有 对 同一 个 cache 块 中 
同一 个 字 或 者 不 同 的 字 重 复 执行 写 操作 时 ， 写 分 配 技术 才 有 效果 。 

cache 的 性 能 对 于 系统 性 能 来 说 十 分 关键 ， 因 为 CPU 速度 和 内 存 速 度 之 间 差 距 非常 大 。 
因此 ， 寻 求 更 好 的 高 速 缓存 策略 依然 是 研究 热点 (Sanchez 和 Kozyrakis, 2011 ; 以 及 和 Gaur 
等 人 ，2011 )。 


4.5.2 分支 预测 


现代 CPU 都 是 高 度 流 水 线 的 。 图 4-36 中 的 流水 线 共 有 七 段 : 高 端的 CPU 有 时 候 有 10 
段 流水 线 甚至 更 多 。 在 执行 顺序 代码 时 流水 线 工 作 得 很 好 ， 这 时 取 指 单元 可 以 从 内 存 中 取出 
连续 的 字 并 在 它们 被 用 到 之 前 把 它们 发 送 给 译 码 单元 。 

这 种 模型 唯一 的 一 个 小 问题 是 它 稍微 有 点 不 切实 际 。 程 序 不 可 能 永远 顺序 执行 。 其 中 充 
满 了 大 量 的 转移 语句 。 请 看 图 4-40a 中 的 简单 的 程序 段 。 变 量 i 和 0 进行 比较 (这 可 能 是 实际 
中 最 常见 的 比较 测试 )。 根 据 比 较 的 结果 ， 另 一 个 变量 不 被 赋值 为 1 或 者 2。 

这 段 程序 编译 成 的 汇编 语言 如 图 4-40b 所 示 。 本 书后 面 会 研究 汇编 语言 ， 其 实现 细节 在 
这 里 并 不 重要 ， 根 据 计 算 机 和 编译 器 的 不 同 ， 其 编译 成 的 汇编 代码 可 能 或 多 或 少 和 图 4-40b 
中 有 些 区 别 。 第 一 条 指令 比较 i 和 0。 如 果 i 不 等 于 0， 第 二 条 指令 就 跳 转 到 标号 Else (else 
语句 的 起 点 ) 处 。 第 三 条 指令 为 上 赋值 1。 第 四 条 语句 跳 转 到 下 一 条 语句 。 为 了 方便 ， 编 译 器 
已 经 在 那里 放置 了 一 个 标号 Next， 因 此 可 以 直接 跳 转 到 那里 。 第 五 条 指令 为 上 赋值 2。 

CMP i,0 ;比较 i 和 和 0 


BNE Else ; 如果 不 相等 跳 转 到 
MOV k,1 ; k 赋 值 为 1 


if (i == 0) 


BR Next ; 无条件 转 移 到 Next 
MOV k,2 ”; kk 赋值 为 2 





a) 程序 段 b) 该 程序 段 翻译 成 的 通用 汇编 语言 
图 4-40 
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你 可 能 已 经 注意 到 了 ， 这 五 条 指令 中 有 两 条 是 转移 指令 。 更 进一步 说 ， 其 中 一 条 是 条 件 
转移 指令 BNE ( 条 件 转移 指令 只 有 当 条 件 满 足 时 才 会 发 生 跳 转 ， te 
条 CMP 指令 的 两 个 操作 数 相 等 )。 这 里 最 长 的 顺序 执行 代码 只 有 两 条 指令 。 因 此 ， 以 很 高 的 
速率 取 指 令 使 流水 线 运转 是 非常 困难 的 。 

乍 看 起 来 ， 图 4-40b 中 的 BR Next 这 样 的 无 条 件 转移 指令 似乎 没有 什么 问题 。 因 为 无 条 
件 转移 指令 的 目的 地 址 是 明确 的 。 为 什么 取 指 单元 不 能 继续 从 目的 地 址 (也 就 是 将 要 跳 转 到 
的 地 址 ) 取 指 呢 ? 

问题 在 于 流水 线 本 身 的 特点 。 例 如 ， 在 图 4-36 中 ,我 们 看 到 指令 译 码 发 生 在 流水 线 的 第 
二 段 。 因 此 取 指 单元 必须 在 得 知 它 将 要 取得 的 指令 的 种 类 之 前 就 确定 指令 的 地 址 。 一 个 周期 
之 后 ， 取 指 单元 就 可 以 知道 它 取 到 的 是 一 条 无 条 件 转移 指令 ， 但 是 这 时 它 已 经 开始 取 该 指令 
后 面 的 指令 了 。 因 此 ， 许 多 采用 流水 线 设计 的 计算 机 (例如 UltraSPARC M) 都 具有 这 样 的 特 
性 ， 紧 跟 在 无 条 件 转移 指令 后 面 的 指令 必须 执行 ， 虽 然 从 逻辑 上 来 说 不 应 该 这 样 。 转 移 指令 
HARMER AER (delay slot) Core i7 (和 图 4-40b 中 的 CPU) 都 不 具有 这 种 特性 ,但 
是 为 了 解决 这 一 问题 ， 它 们 都 采用 了 非常 复杂 的 内 部 结构 。 具 有 优化 功能 的 编译 器 可 以 让 某 
些 有 用 的 指令 填充 延 时 槽 ， 但 是 通常 情况 下 并 没有 什么 事情 可 做 ， 因 此 不 得 不 插 和 人 一 条 NOP 
指令 。 这 样 可 以 保证 程序 正确 ， 但 是 程序 变 大 了 ,也 慢 了 。 

无 条 件 转移 指令 很 难处 理 ， 条 件 转移 指令 就 更 难 办 了 。 它 们 不 仅 需 要 延 时 槽 ， 而 且 一 
直到 流水 线 的 深 处 ， 取 指 单元 才能 知道 到 哪里 去 取 指 令 。 早 期 的 流水 线 CPU 这 时 就 阻塞 
(stall )， 直 到 它 知 道 跳 转 是 否 发 生 为 止 。 每 次 执行 条 件 转移 指令 都 要 阻塞 三 到 四 个 周期 ， 如 果 
程序 中 的 指令 有 20% 是 条 件 转移 指令 ， 就 会 对 性 能 产生 很 大 的 影响 。 

因此 ， 大 多 数 的 计算 机 遇 到 条 件 转移 指令 时 都 将 预测 是 否 将 跳 转 。 如 果 我 们 能 够 在 计算 
机 空闲 的 PCI 槽 中 插入 (更 好 一 点 可 以 插入 到 IFU 中 ) 一 个 能 预测 未 来 的 水 唱 球 来 帮助 预测 ， 
那么 这 种 作法 将 有 很 好 的 效果 ， 但 是 目前 还 没有 水 晶 球 这 样 的 设备 。 

既然 没有 水 晶 球 ， 我 们 只 好 去 设计 其 他 的 预测 方法 。 可 以 使 用 下 面 这 样 非常 简单 的 方案 : 
假定 所 有 向 后 的 跳 转 都 会 发 生 ， 而 所 有 向 前 的 跳 转 则 认为 不 会 发 生 。 前 一 个 假定 的 理由 是 向 
前 的 跳 转 往往 位 于 循环 的 尾部 。 大 多 数 循环 都 需要 执行 多 次 ， 因 此 假定 到 循环 首部 的 跳 转 会 
发 生 是 合理 的 。 

后 一 个 假设 就 不 太 合 理 了 。 某 些 向 前 的 跳 转 指令 会 在 软件 检测 到 错误 条 件 时 发 生 ( 例如 ， 
文件 不 能 打开 )。 出 现 错误 的 概率 是 很 小 的 ， 因 此 大 多 数 和 出 错 相 关 的 跳 转 都 不 会 发 生 。 当 
R, 还 有 大 量 的 向 前 跳 转 指 令 和 错误 处 理 无 关 ， 因 此 这 种 假设 的 成 功率 就 没有 向 后 跳 转 的 成 
功率 高 。 虽 然 这 种 方案 的 效果 不 理想 ,但 是 它 至 少 比 什 么 都 不 做 要 好 。 

如 果 能 正确 预测 跳 转 就 最 好 不 过 了 。 可 以 跳 转 到 目的 地 址 继续 执行 。 但 是 当 预 测 错误 时 
就 会 出 现 问 题 。 找 到 正确 的 目的 地 址 并 转移 到 该 目的 地 址 继续 执行 并 不 困难 。 困 难 的 是 如 何 
取消 已 经 执行 的 和 将 要 执行 的 指令 。 

有 两 种 处 理 办 法 。 第 一 种 办 法 是 允许 预测 的 跳 转 转移 指令 之 后 的 指令 继续 执行 直到 它 
们 将 要 修改 计算 机 的 状态 时 ( 例如， 向 寄存 器 中 保存 数据 )。 这 时 ， 并 不 把 计算 结果 存 人 寄 
存 器 ， 而 是 存 人 一 个 〈 秘 密 的 ) 临时 寄存 器 中 ， 当 得 知 预测 结果 正确 时 再 把 该 值 拷贝 到 实际 
的 寄存 器 中 。 第 二 种 方案 是 记录 将 要 被 覆 写 的 寄存 器 的 原 值 ( 可 以 保存 在 秘密 的 临时 寄存 器 
中 )， 这 样 当 计算 机 发 现 自己 发 生 预 测 错误 时 可 以 恢复 到 正确 的 状态 。 这 两 种 方案 都 很 复杂 ， 
需要 付出 很 大 的 努力 才能 使 它们 正确 工作 。 而 且 如 果 在 还 不 知道 第 一 次 预测 是 否 正确 时 又 遇 


224 BAF 





到 了 第 二 条 条 件 转 移 指令 ， 人 情况 将 变 得 更 糟糕 。 

1. 动态 分 支 预 测 

很 显然 ,正确 预测 的 意义 很 大 ， 因 为 这 时 CPU 可 以 全 速 运行 。 因此， 针对 如 何 提 高 分 支 
预测 算法 的 准确 度 ， 研 究 人 员 进 行 了 大 量 的 研究 工作 (例如 ，Chen 等 人 ，2003; Falcon 等 人 ， 
2004; Jimenez, 2003; Parikh 等 人 ，2004 )。 一 种 方案 是 让 CPU 维护 一 张 历史 表 (使 用 特殊 的 
硬件 实现 )， 表 中 记录 了 以 前 发 生 的 条 件 转移 指令 ， 当 再 次 发 生 条 件 转移 时 ，CPU 将 查找 这 
张 表 。 图 4-41a 中 是 使 用 这 种 方案 的 最 简单 的 情况 。 图 中 的 历史 表 为 每 个 条 件 转移 指令 分 配 
一 项 。 该 项 包括 转移 指令 的 地 址 ， 还 有 一 位 用 于 表示 该 指令 最 近 一 次 执行 时 是 否 发 生 了 跳 转 。 
使 用 这 种 方案 时 ， 预 测 很 简单 ， 就 按照 该 指令 上 次 的 转移 情况 预测 。 如 果 预 测 错误 ， 就 改变 
历史 表 中 的 相应 位 。 

还 可 以 用 其 他 几 种 方案 组 织 历 史 表 。 实 际 上 ， 它 们 和 设计 cache 时 使 用 的 技术 是 一 样 的 。 
举 个 例子 ， 有 一 台 使 用 32 位 指令 的 计算 机 ， 指 令 是 按照 字 边 界 对 齐 的 ， 也 就 是 说 每 个 内 存 地 
址 的 低 两 位 都 是 00。 如 果 使 用 直接 上 映射 方式 的 历史 表 ， 表 项 为 2 那么 就 可 以 取出 转移 指令 
的 低 n+2 位 并 右 移 两 位 得 到 一 个 位 数 。 使 用 该 数 作为 历史 表 的 索引 来 检索 历史 表 看 保存 在 
对 应 位 置 的 地 址 是 否 和 转移 指令 的 地 址 匹配 。 和 cache 一 样 ， 不 需要 保存 低 端 的 n+2 位 ， 因 
此 最 低 两 位 被 忽略 了 ( 只 保存 高 地 址 作为 标记 )。 如果 匹配 ， 则 使 用 预测 位 进行 预测 。 如 果 标 
记 不 匹配 或 者 该 项 无 效 ， 就 使 用 向 前 /向 后 跳 转 规则 。 

如 果 转 移 历 史 表 有 4096 项 ， 那 么 位 于 地 址 0、16384、32768 等 处 的 转移 指令 将 会 冲突 ， 
这 和 cache 中 遇 到 的 问题 类 似 。 因 此 我 们 也 可 以 采用 相同 的 解决 方案 : 采用 两 路 ， 四 路 ,或 
者 n 路 组 相连 策略 。 和 cache 中 的 情况 一 样 ， 最 受 限制 的 情况 是 n 路 组 相连 ， 这 时 需要 对 历 
史 表 进行 完全 查找 。 

如 果 表 空间 很 大 ， 并 提供 足够 的 相连 组 数 ， 那 么 这 种 方案 在 大 多 数 情况 下 可 以 工作 
得 很 好 。 但 是 ， 有 一 个 系统 造成 的 问题 无 法 解决 。 当 循环 最 终 退 出 时 ， 位 于 循环 尾部 的 
转移 指令 将 预测 错误 ， 更 糟糕 的 是 ， 这 一 错误 预测 将 改变 历史 表 中 的 预测 位 来 指明 将 来 
的 预测 是 “不 跳 转 ”。 当 下 一 次 进入 循环 时 ， 对 第 一 次 循环 的 最 后 一 条 跳 转 语 句 的 预测 将 
是 错误 的 。 如 果 循 环 位 于 另 一 个 循环 的 内 部 ,或 者 在 一 个 频繁 调用 的 过 程 中 ， 这 种 错误 
将 经 常 发 生 。 

为 了 消除 这 种 预测 失效 ,我 们 可 以 再 次 修改 历史 表 项 。 使 用 这 种 方案 时 ， 只 有 两 次 连续 
的 预测 都 发 生 错 误 时 才 改 变 预 测 位 。 这 种 方案 需要 在 历史 表 中 设置 两 个 预测 位 ， 一 位 是 对 转 
移 指 令 的 猜测 ， 另 一 位 是 上 次 跳 转 的 情况 ， 如 图 4-41b 所 示 。 
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有 效 位 不 转移 有 效 位 有 效 位 测 位 
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转移 地 址 / 转移 地 址 / 转移 地 址 / a 
模 位 | 标记 bi LA 标记 预测 位 。 槽 位 | 标记 | 目标 地 址 
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0 
a) 1 位 的 跳 转 历史 位 b) 两 位 的 跳 转 历史 位 c) 转移 指令 地 址 和 目标 地 址 之 间 的 映射 


图 4-41 
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查找 算法 也 有 一 些 不 同 ， 可 以 把 它 看 成 是 有 四 个 状态 的 有 限 状 态 机 (FSM )， 如 图 4-42 
所 示 。 在 一 系列 连续 正确 的 “不 跳 转 ”预测 之 后 ，FSM 将 进入 状态 00 而 且 对 下 一 次 跳 转 的 
预测 也 是 “不 跳 转 ”。 如 果 不 正确 ，FSM 将 进入 状态 01, 但 是 下 次 的 预测 仍然 是 “不 跳 转 ”。 
MREDEH, FSM 将 进入 状态 11 并 把 预测 改 为 跳 转 。 从 效果 上 来 说 ,状态 的 左边 一 位 表示 
预测 ， 右 面 的 一 位 表示 上 次 的 实际 跳 转 情况 。 该 设计 中 只 使 用 了 两 位 的 历史 表 ， 我 们 也 可 以 
使 用 4 位 或 者 8 位 的 历史 表 。 





图 4-42 ”用 于 分 支 预 测 的 两 位 有 限 状态 机 


这 并 不 是 我 们 遇 到 的 第 一 个 FSM。 图 4-28 也 是 一 个 FSM。 实 际 上 ， 可 以 把 所 有 的 微 程 
序 都 看 成 FSM， 因 为 微 程序 中 的 每 行 都 代表 计算 机 的 一 个 特定 的 状态 ， 它 将 根据 事先 定义 好 
的 变迁 跳 转 到 有 限 状 态 集合 中 的 其 他 状态 。FSM 已 经 在 硬件 设计 中 得 到 了 广泛 的 应 用 。 

到 目前 为 止 ， 我 们 都 假定 每 条 转移 指令 的 目的 地 址 都 是 已 知 的 ， 或 者 是 一 个 明确 的 地 址 
(包括 在 指令 中 )， 或 者 是 相对 于 当前 指令 的 相对 偏 移 量 (也 就 是 给 程序 计数 器 加 上 一 个 带 符 
号 的 数 )。 通 常情 况 下 可 以 这 样 假设 ,但 是 某 些 条 件 转移 指令 通过 对 寄存 器 的 内 容 进行 运算 来 
得 到 目的 地 址 ， 然 后 执行 跳 转 。 即 使 图 4-42 中 的 FSM 能 够 准确 地 预测 将 要 发 生 的 跳 转 ， 但 
是 这 种 预测 对 于 目的 地 址 未 知 的 转移 指令 是 毫 无 意义 的 。 解 决 这 一 问题 的 一 种 方案 是 在 历史 
表 中 保存 上 一 次 的 实际 跳 转 地 址 ， 如 图 4-41c 所 示 。 使 用 这 种 方案 时 ， 如 果 历 史 表 中 表明 地 
hk 516 处 的 转移 指令 上 次 发 生 了 转移 并 跳 转 到 了 地 址 4000 处 ， 而 且 现 在 的 预测 仍然 是 “ 跳 
转 ”， 那 么 我 们 就 假定 这 次 的 转移 将 再 次 跳 转 到 地 址 4000 处 。 

分 支 预测 的 另 一 种 策略 是 记录 前 上 次 条 件 转移 指令 的 情况 ， 而 不 管 它们 的 指令 类 型 。 这 
位 数据 包含 在 转移 历史 移 位 寄存 器 (branch history shift register) 中 ， 该 寄存 器 将 并 行 地 和 
历史 表 中 的 位 主键 进行 比较 ， 如 果 匹 配 ， 就 使 用 找到 的 预测 。 令 人 惊讶 的 是 ， 这 种 方案 在 
实际 应 用 中 的 效果 相当 好 。 314 

2. 静态 分 支 预 测 

到 目前 为 止 讨 论 的 所 有 分 支 预 测 技术 都 是 动态 的 ， 也 就 是 说 ， 它 们 在 程序 运行 时 执行 。 
它们 可 以 适应 程序 的 当前 状态 ， 这 是 它们 的 优点 。 但 缺点 是 需要 特殊 的 和 复杂 的 硬件 ， 并 极 
大 地 增加 了 芯片 的 复杂 度 。 

另 一 种 预测 方案 是 让 编译 器 进行 预测 。 当 编译 器 看 到 一 条 这 样 的 语句 时 : 

for (i = 0; i < 1000000; i++) { ... } 

它 就 知道 循环 尾部 的 转移 几乎 肯定 会 发 生 。 如 果 能 有 办 法 让 编译 器 把 这 一 信息 告诉 硬件 ， 将 
会 节省 大 量 的 工作 。 
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使 用 这 种 技术 带 来 了 体系 结构 的 变化 ( 并 不 仅仅 是 实现 的 问题 )， 某 些 计 算 机 ， 比 如 
UltraSPARC III， 除 了 通常 的 条 件 转移 指令 之 外 (它们 用 于 保证 向 后 兼容 )， 还 有 男 一 组 条 
件 转移 指令 。 这 些 新 的 指令 中 有 一 位 可 以 由 编译 器 设置 ， 当 编译 器 认为 会 发 生 跳 转 时 (或 者 
不 会 发 生 时 ) 就 设置 该 位 。 当 遇 到 这 样 的 指令 时 ， 取 指 单元 就 直接 按照 指令 中 的 指示 采取 行 
动 。 而 且 ， 这 种 方案 不 需要 把 宝贵 的 空间 浪费 在 保存 指令 的 转移 历史 表 上 ， 并 可 以 减少 冲突 
的 发 生 。 

最 后 一 种 分 支 预测 技术 是 基于 模拟 的 (profiling ) ( Fisher 和 Freudenberger, 1992 )。 这 也 
是 一 种 静态 的 方案 ， 但 是 它 并 不 使 用 编译 器 来 指出 哪些 转移 会 发 生 ， 哪 些 转移 不 会 发 生 。 它 
实际 运行 该 程序 (一 般 是 在 模拟 器 上 运行 )， 以 获得 程序 中 发 生 转 移 的 信息 。 这 些 信 息 将 送 给 
编译 器 ， 编 译 器 再 使 用 特殊 的 条 件 转移 指令 来 通知 硬件 该 如 何 操作 。 


4.5.3 乱 序 执行 和 寄存 器 重 命名 


大 多 数 现代 CPU 都 采用 了 流水 线 和 超标 量 技术 ， 如 图 2-6 所 示 。 这 意味 着 这 些 CPU 中 
都 有 取 指 单元 ， 在 指令 被 用 到 之 前 ， 取 指 单元 就 已 经 从 内 存 中 取出 指令 并 送 入 译 码 单元 。 译 
码 单 元 把 译 码 后 的 指令 发 送 到 适当 的 功能 单元 去 执行 。 根 据 功 能 单元 功能 的 区 别 ， 有 时 候 在 
把 指令 发 送 到 功能 单元 之 前 需要 先 把 指令 划分 成 微 操 作 步 。 

很 显然 ， 如 果 所 有 的 指令 都 按照 取 指 的 顺序 执行 ， 计 算 机 的 设计 是 最 简单 的 〈 假定 分 支 
预测 算法 永远 不 会 出 错 )。 但 是 ， 由 于 指令 之 间 存 在 相关 性 ， 那 么 按照 顺序 执行 并 不 一 定 得 到 
最 优 性 能 。 如 果 某 条 指令 需要 用 到 前 一 条 指令 的 计算 结果 ， 那 么 只 有 当前 一 条 指令 产生 了 结 
果 之 后 ， 这 条 指令 才能 执行 。 在 这 种 情况 下 ( 即 RAW 相关 )， 第 二 条 指令 就 必须 等 待 。 很 快 
我 们 就 会 看 到 ,还 有 其 他 类 型 的 相关 。 

为 了 克服 这 些 问 题 以 达到 更 好 的 性 能 ， 某 些 CPU 可 以 跳 过 相关 的 指令 执行 后 面 不 相关 的 
指令 。 训 无 疑问 ， 内 部 的 指令 调度 算法 必须 保证 程序 的 运行 结果 和 按照 顺序 执行 时 的 结果 相 
同 。 下 面 我 们 用 一 个 详细 的 例子 来 说 明 如 何 使 指令 乱 序 执行 。 

为 了 揭示 问题 的 本 质 ， 我们 使 用 这 样 一 台 计 算 机 为 例 ， 它 总 是 按照 程序 的 顺序 发 送 指令 ， 
而 且 指 令 的 完成 顺序 也 和 程序 规定 的 相同 。 下 面 我 们 很 快 就 会 看 到 后 一 点 的 重要 性 。 

我 们 的 例子 中 用 到 的 计算 机 有 程序 员 可 用 的 8 个 寄存 器 ，R0 ~ R7。 所 有 的 算术 指令 都 使 
用 三 个 寄存 器 : 两 个 保存 操作 数 ， 一 个 存放 结果 ， 这 和 Mic-4 相同 。 我 们 假定 如 果 一 条 指令 在 
周期 n 时 译 码 ， 那 么 它 就 在 周期 n+ 1 时 开始 执行 。 如 果 是 简单 指令 ， 如 加 法 指令 或 者 减法 指 
令 ， 就 在 周期 n+2 结束 时 把 结果 写 回 目的 寄存 器 。 如 果 是 比较 复杂 的 指令 ， 如 乘法 ， 就 在 周期 
n+3 结束 时 把 结果 写 回 目的 寄存 器 。 为 了 使 例子 更 实际 一 些 ， 我 们 允许 译 码 单元 每 个 时 钟 周期 
最 多 发 送 两 条 指令 。 商 用 的 超标 量 CPU 通常 在 一 个 时 钟 周期 内 能 发 送 4 条 甚至 6 条 指令 。 

图 4-43 给 出 了 例子 的 执行 序列 。 第 一 列 是 周期 的 序号 。 第 二 列 是 指令 的 序号 。 第 三 列 是 
被 译 码 的 指令 。 第 四 列 说 明 哪 条 指令 被 发 出 ( 每 个 时 钟 周期 最 多 两 条 )。 第 五 列 是 已 经 完成 
的 指令 。 请 记 住 ， 在 我 们 的 例子 中 ， 指 令 既 需要 按 顺 序 发 出 ， 也 需要 按 顺 序 结束 ， 因 此 指令 
k+l 在 指令 大 发 出 之 前 不 能 被 发 出 ， 而 且 指令 kH 在 指令 完成 之 前 也 不 能 完成 ( 完成 的 意思 
是 完成 写 人 目的 寄存 器 的 操作 )。 其 他 的 16 列 下 面 将 会 讨论 。 

对 某 条 指令 译 码 之 后 ， 译 码 单元 必须 决定 是 否 立即 发 出 这 条 指令 。 为 了 作出 决定 ， 译 码 
单元 需要 掌握 所 有 寄存 器 的 状态 。 例 如 ， 如 果 当 前 的 指令 需要 用 到 某 个 值 还 没有 计算 出 来 的 
寄存 器 ， 这 条 指令 就 不 能 发 出 ，CPU 必须 处 于 等 待 状态 (阻塞 )。 
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图 4-43” 按 序 发 送 和 按 序 结束 的 超标 量 CPU 的 操作 


我 们 使 用 记分 牌 (scoreboard) 来 掌握 寄存 器 的 使 用 情况 ，CDC 6600 首先 使 用 了 这 种 技 
术 。 记 分 牌 中 对 应 每 个 寄存 器 都 有 一 个 小 计数 器 ， 它 记录 每 个 寄存 器 被 当前 正在 执行 的 指令 
作为 数据 源 引 用 的 次 数 。 如 果 一 次 最 多 可 以 发 出 15 条 指令 ， 那么 使 用 4 位 的 计数 器 就 可 以 
了 。 当 指令 发 出 时 ， 它 的 操作 数 寄存 器 对 应 的 记分 牌 加 1， 当 指令 结束 时 ， 它 的 操作 数 寄存 
器 对 应 的 记分 牌 就 减 1。 

记分 牌 还 记录 每 个 寄存 器 作为 目的 寄存 器 的 次 数 。 由 于 一 次 只 允许 写 人 一 个 寄存 器 ， 这 
些 计数 器 使 用 1 位 宽 就 足够 了 。 图 4-43 中 右面 的 16 die 

在 实际 的 计算 机 中 ， 记 分 牌 还 记录 了 功能 单元 的 使 用 ， 这 样 可 以 避免 出 现 发 出 一 条 指令 
之 后 却 发 现 没 有 功能 单元 可 用 的 情况 。 为 了 使 问题 简化 ， 我 们 假定 任意 时 刻 都 有 合适 的 功能 
单元 可 用 ， 因 此 我 们 在 记分 牌 中 就 没有 记录 功能 单元 。 

图 4-43 中 的 第 一 行 是 I1 (指令 1)， 它 把 RO0 和 Rl 相 乘 并 把 结果 存 人 R3。 由 于 这 些 寄 
存 器 都 是 空闲 的 ， 所 以 该 指令 将 被 发 出 ， 然 后 修改 记分 牌 以 表示 RO 和 RI 正在 被 读 而 R3 IE 
在 被 写 。 在 11 完成 之 前 ， 其 他 指令 不 能 写 这 些 寄 存 器 也 不 能 读 寄存 器 R3。 由 于 该 指令 是 乘 
法 指令 ， 它 将 在 周期 4 结束 时 完成 。 每 行 的 记分 牌 的 值 反 映 的 是 该 行 的 指令 被 发 出 后 的 状态 。 
空白 项 表示 0。 
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我 们 的 例子 是 一 台 超 标量 计算 机 ， 它 每 个 周期 可 以 发 出 两 条 指令 ， 因 此 第 二 条 指令 (12) 
也 在 周期 1 中 发 出 。 它 把 RO0 和 R2 相 加 ,结果 存 人 R4。 使 用 下 面 的 规则 来 判断 该 指令 是 否 
能 发 出 : 

1) 如 果 任 何 一 个 操作 数 正 在 被 写 ， 就 不 发 出 (RAW 相关 )。 

2) 如 果 保 存 结果 的 寄存 器 正在 被 读 ， 就 不 能 发 出 ( WAR 相关 )。 

3) 如 果 保 存 结果 的 寄存 器 正在 被 写 ， 也 不 能 发 出 ( WAW 相关 )。 

前 文 我 们 已 经 看 到 了 RAW 相关 ， 当 指令 需要 使 用 前 一 条 指令 还 没有 产生 的 结果 作为 操 
作 数 时 就 会 发 生 RAW 相关 。 另 外 两 种 相关 则 没有 那么 严重 。 它 们 是 资源 冲突 造成 的 。WAR 
( Write After Read) 相关 的 含义 是 某 条 指令 试图 向 前 一 条 指令 正在 读 的 寄存 器 写 人 数据 : 
WAW ( Write After Write) 相关 与 之 类 似 。 可 以 让 第 二 条 指令 把 结果 和 暂时 存 人 别 的 地 方 来 避免 
这 些 相关 性 。 如 果 不 存在 上 述 三 种 相关 ， 而 且 功 能 单元 是 可 用 的 ， 该 指令 就 被 发 出 。 在 我 们 
的 例子 中 , 12 使 用 的 寄存 器 RO 正在 被 指令 I1 读 取 ,但 是 这 种 重 秋 是 允许 的 ， 因 此 12 被 发 出 。 
类 似 地 ， 周 期 2 时 JI3 也 被 发 送 。 

下 面 该 执行 IJ4 了 ， 它 需要 使 用 R4。 很 不 幸 ， 从 第 3 行 中 我 们 看 到 R4 正在 被 写 人 。 这 时 
MEET RAW 相关 ， 因 此 译 码 单元 将 阻塞 直到 R4 可 用 为 止 。 阻 塞 期 间 ， 译 码 单元 停止 从 取 
指 单元 取 指 令 。 当 取 指 单元 的 内 部 缓冲 区 存 满 之 后 ， 它 也 将 停止 取 指令 。 

虽然 程序 中 的 下 一 条 指令 15 并 没有 和 正在 执行 的 任何 一 条 指令 冲突 ,但 是 我 们 并 不 能 利 
用 这 一 点 。 如 果 不 是 因为 我 们 的 设计 要 求 按 照 顺 序 发 送 指令 ， 这 条 指令 应 该 是 能 够 被 译 码 并 
发 出 的 。 

现在 我 们 来 看 看 周期 3 发 生 了 什么 。 加 法 指令 2 (需要 两 个 周期 )， 应 该 在 周期 3 结束 
时 完成 。 但 是 很 遗憾 ， 它 并 不 能 在 这 时 候 完 成 ， 因 此 也 不 能 为 14 释放 R4。 为 什么 不 能 完成 
E? 原因 在 于 我 们 的 设计 要 求 是 按照 顺序 完成 。 这 又 是 为 什么 呢 ? 难道 我 们 现在 就 把 结果 存 
A R4 使 R4 可 用 会 带 来 什么 危害 吗 ? 

答案 是 很 微妙 的 ， 也 很 重要 。 假 定 指令 可 以 不 按照 顺序 完成 。 那 么 当 发 生 中 断 时 ， 就 
很 难保 存 计算 机 的 状态 ， 以 后 也 就 很 难 恢复 计算 机 的 状态 。 特 别 是 ， 我 们 就 不 能 说 某 个 地 址 
之 前 的 所 有 指令 已 经 执行 了 而 该 地 址 之 后 的 所 有 指令 都 还 没有 执行 。 这 种 精确 中 断 precise 
interrupt ) 是 CPU 需要 的 特性 (Moudgill 和 Vassiliadis, 1996 )。 乱 序 完成 会 使 中 断 不 精确 ， 这 
就 是 某 些 计算 机 需要 指令 按 序 完成 的 原因 。 

再 回 到 我 们 的 例子 中 ， 在 周期 4 结束 时 ， 所 有 三 条 正在 等 待 的 指令 将 完成 ， 这 样 ， 在 周 
期 5 时 就 可 以 发 出 14 和 刚刚 译 码 的 13。 只 要 有 指令 完成 ， 译 码 单元 就 会 检查 是 否 可 以 发 出 正 
在 等 待 的 指令 。 

周期 6 时 ，I6 将 阻塞 ， 因 为 它 需 要 写 人 R1， 而 Rl 正在 被 使 用 。I6 直到 周期 9 时 才能 
启动 。 虽 然 硬 件 能 够 每 个 时 钟 周 期 发 出 两 条 指令 ， 但 是 由 于 存在 许多 相关 性 ， 整 个 8 条 指令 
的 序列 需要 18 个 周期 才能 完成 。 但 是 ， 请 注意 ， 如 果 你 从 上 到 下 观察 图 4-43 中 的 “发 送 ” 
列 ， 就 会 发 现 指令 是 按照 顺序 发 出 的 。 类 似 地 ， 从 “完成 ” 列 中 可 以 看 出 它们 也 是 按照 顺序 
完成 的 。 

现在 我 们 考虑 另 一 种 方案 : 乱 序 执行 。 使 用 这 种 方案 ， 指 令 发 出 时 可 以 不 按照 顺序 ， 指 
令 结 束 时 也 可 以 不 按照 顺序 。 图 4-44 中 是 同样 的 8 条 指令 的 序列 ， 不 过 现在 允许 乱 序 执行 和 
乱 序 完成 。 
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图 4-44 乱 序 发 送 和 乱 序 完成 的 超标 量 CPU 的 操作 
第 一 个 区 别 发 生 在 周期 3。 虽然 14 阻塞 ,但 是 我 们 仍然 可 以 译 码 并 发 出 I5， 因 为 它 没有 
和 前 面 的 任何 指令 冲突 。 但 是 ， 跳 过 指令 会 导致 新 的 问题 。 如 果 IS 用 到 了 被 跳 过 的 指令 14 
产生 的 结果 就 会 出 现 问题 。 使 用 现在 的 记分 牌 ， 我 们 不 可 能 发 觉 这 一 点 。 因 此 ， 我 们 需要 对 
记分 牌 进行 扩展 来 掌握 由 被 跳 过 的 指令 执行 的 存储 操作 。 可 以 通过 增加 一 个 位 图 来 实现 ， 位 
图 中 为 每 个 寄存 器 分 配 了 一 位 ， 来 跟踪 有 阻塞 的 指令 执行 的 存储 操作 ( 图 4-44 中 并 没有 画 出 
这 些 计数 器 )。 发 出 指令 的 规则 也 进行 了 扩展 ， 以 防止 被 发 出 的 指令 用 到 被 跳 过 的 指令 的 运算 
结果 。 
现在 我 们 回 到 图 4-43 FEA 16. 17 和 I8。 我 们 看 到 I6 计算 的 结果 存 人 及 1， 而 I7 用 到 
了 R1。 但 是 ,我 们 也 发 现 该 值 以 后 不 可 能 再 被 使 用 ， 因 为 I8 MHS SRI. PARI 保存 16 
的 结果 并 没有 什么 实际 的 理由 。 最 合理 的 解释 是 编译 器 或 者 程序 员 使 用 串 行 执行 的 思想 编译 
(编写 ) 程序 而 没有 考虑 到 指令 重 释 执行 的 情况 ， 当 然 更 坏 的 情况 是 把 R1 作为 中 间 寄 存 器 
使 用 。 
在 图 4-44 中 ,我 们 引入 了 一 种 新 的 技术 解决 该 问题 : 寄存 器 重 命名 (register renaming )。 
pap 16 (周期 3) 和 1I7 (周期 4) 中 用 到 的 Rl 改 成 了 一 个 秘密 的 寄存 器 
， 该 寄存 器 对 程序 员 是 不 可 见 的 。 现 在 16 可 以 和 15 同时 发 出 了 。 现 代 计 算 机 通常 有 数 十 
petit barat evap 这 种 技术 可 以 有 效 地 减少 WAR 和 WAW 相关 。 
执行 I8 时 ， 我们 再 次 用 到 了 寄存 顺 重 命名 。 这 次 Ri 被 重 命名 成 S2， 这 样 加 法 就 可 以 在 
RI 空闲 之 前 启动 (R1 直到 周期 6 才 会 空闲 )。 如 果 CPU 认为 最 后 的 结果 应 该 在 R1 H, A 
可 以 及 时 地 把 S2 拷贝 到 R1 中 。 更 好 的 方案 是 ， 所 有 后 来 用 到 RI 的 指令 都 可 以 把 它们 的 源 
寄存 器 改 成 实际 保存 值 的 寄存 器 。 无 论 哪 种 情况 18 指令 都 可 以 提前 发 出 。 
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在 许多 实际 的 计算 机 中 ， 重 命名 是 圣人 在 寄存 器 组 织 中 的 。 这 些 计算 机 中 都 有 许多 秘密 
寄存 器 和 把 程序 员 可 见 的 寄存 器 映射 到 秘密 寄存 器 的 对 照 表 。 这 样 ， 实 际 保存 RO (AN AS AE at 
可 以 通过 查找 映射 表 项 0 来 得 到 。 使 用 这 种 方式 时 ，CPU 中 没有 实际 的 寄存 器 RO， 而 只 有 名 
称 RO 和 某 个 秘密 寄存 器 的 绑 定 信息 。 为 了 避免 相关 ， 在 执行 期 间 可 以 频繁 改变 绑 定 信息 。 

请 注意 ， 在 图 4-44 中 ， 沿 着 第 四 列 往 下 看 ， 指 令 并 不 是 按照 顺序 发 送 的 。 也 不 是 按照 顺 
序 完 成 的 。 从 该 例子 中 得 到 的 结论 很 简单 : 使 用 乱 序 执 行 和 寄存 器 重 命名 技术 可 以 把 运算 速 
度 提高 到 几乎 为 原来 的 两 倍 。 


4.5.4 推测 执行 


在 前 一 小 节 中 ， 我 们 介绍 了 为 了 提高 性 能 而 采取 的 乱 序 执行 技术 。 乱 序 执行 主要 是 用 于 
一 个 基本 块 之 内 的 重 排序 指令 ， 这 一 点 我 们 前 面 并 没有 明确 指出 。 现 在 我 们 来 更 仔细 地 研究 
这 一 点 。 

计算 机 程序 可 以 划分 成 许多 基本 块 (basic block )， 每 个 基本 块 由 一 系列 顺序 执行 的 指 
令 组 成 ， 头 部 有 人 口 ， 底 部 有 出 口 。 基 本 块 不 包括 任何 控制 结构 ( 比如 证 语句 和 while 语 
句 )， 因 此 ， 由 基本 块 翻 译 得 到 的 机 器 语言 不 包括 任何 转移 语句 。 控 制 语 句 把 各 个 基本 块 连 
接 在 一 起 。 

这 种 形式 的 程序 可 以 用 有 向 图 表示 ， 如 图 4-45 所 示 。 图 中 的 程序 用 于 计算 小 于 某 个 最 大 
值 的 所 有 奇数 和 偶数 的 立方 和 ， 分 别 保 存在 evensum 和 oddsum 中 。 在 每 个 基本 块 之 内 ， 前 
一 节 讨 论 的 乱 序 执行 技术 可 以 工作 得 很 好 。 



















evensum = 0; 
oddsum = 0; evensum = 0; 
oddsum = 0; 
idles i=0; 
while (i < limit) { i ta 
k=i*i*i; while (i < limit) 


if (((i/2) + 2) == i) ; 


k=i»i*i 
if ((/2) * 2) = =i) 





evensum = evensum + k; 
else 


oddsum = oddsum + k; 





i=i+1; 














a) 程序 段 b) 对 应 的 基本 框图 
图 4-45 


问题 在 于 大 多 数 的 基本 块 都 很 短 而 且 难 以 开发 高 效率 的 并 行 性 。 因 此 ， 为 了 保证 每 个 周 
期 都 能 发 出 足够 的 指令 ， 需 要 跨越 基本 块 的 边界 进行 乱 序 执行 。 如 果 把 比较 慢 的 操作 从 图 中 
的 位 置 往 上 移动 ， 让 它 提前 开始 ， 性 能 将 有 最 大 的 提高 。 这 种 比较 慢 的 指令 可 能 是 LOAD 指 
令 、 浮 点 运算 指令 ， 甚 至 是 一 个 很 长 的 相关 指令 序列 的 开始 指令 。 把 代码 提前 到 转移 之 前 执 
行 称 为 指令 提升 (hoisting )。 
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假定 图 4-45 中 所 有 的 变量 都 保存 在 寄存 器 中 ， 除 了 evensum 和 oddsum ( 因为 没有 足够 
的 寄存 器 可 用 )。 这 样 就 可 以 把 LOAD 指令 提升 到 循环 项 部， 在 计算 丰 之 前 ， 它 们 就 可 以 提 
前 开始 执行 ， 当 需要 用 到 这 些 值 的 时 候 ， 这 些 值 都 已 经 存在 了 。 当 然 ， 每 次 循环 只 需要 其 中 
的 一 个 值 ， 这 样 其 他 的 LOAD 指令 就 浪费 了 ,但 是 如 果 高 速 缓存 和 内 存 是 流水 线 的 ， 而 且 有 
发 射 梭 可 用 ， 那 么 这 人 么 做 还 是 值得 的 。 在 不 知道 是 否 需要 执行 之 前 就 执行 代码 的 技术 称 为 推 
测 执行 ( speculative execution )。 使 用 这 种 技术 需要 编译 器 和 硬件 的 支持 ， 还 需要 对 体系 结构 
进行 扩展 。 在 大 多 数 情况 下 ， 跨 越 基 本 块 边界 的 乱 序 执行 超过 了 硬件 的 能 力 ， 因 此 编译 器 必 
须 显 式 地 移动 指令 。 321 

推测 执行 带 来 了 一 些 有 趣 的 问题 。 首 先 ， 也 是 最 基本 的 一 个 问题 是 推测 执行 的 指令 不 能 
产生 不 可 改变 的 结果 ， 因 为 如 果 它 们 将 来 不 需要 执行 时 结果 应 该 能 够 撤销 。 在 图 4-45 P, 
取 evensum 和 oddsum 是 可 以 的 ， 当 大 可 用 时 就 执行 加 法 也 是 可 行 的 (甚至 可 以 在 证 语句 之 
前 )， 但 是 把 结果 存 人 内 存 就 不 好 了 。 在 更 复杂 的 代码 序列 中 ， 防 止 推测 执行 的 代码 在 确 知 自 
己 是 否 需 要 执行 之 前 就 覆 写 寄存 器 的 方案 是 重新 命名 推测 执行 的 代码 用 到 的 所 有 寄存 器 。 使 
用 这 种 方式 时 ， 只 能 修改 重 命名 之 后 的 临时 寄存 器 ， 这 样 如 果 代 码 最 终 不 需要 执行 也 没有 问 
题 。 如 果 需 要 执行 这 些 代 码 ， 就 把 临时 寄存 器 拷贝 到 真正 的 目的 寄存 器 中 。 正 如 你 所 想 ， 记 
分 牌 掌握 所 有 这 些 信息 并 不 简单 ， 但 是 只 要 有 足够 的 硬件 支持 ， 还 是 可 以 实现 的 。 

但 是 ， 推 测 执行 带 来 的 另 一 个 问题 是 寄存 器 重 命名 无 法 解决 的 。 如 果 推 测 执行 的 指令 产 
生 蜡 常会 怎么 样 呢 ? 一 个 痛苦 的 ， 但 是 并 不 致命 的 例子 是 导致 cache 缺失 的 LOAD S, B 
设 该 计算 机 的 cache 块 很 大 ( 比如 说 ，256 个 字 节 )， 而 且 内 存 速度 比 CPU 和 cache 慢 很 多 。 
如 果 该 LOAD 指令 确实 是 需要 的 ， 那 么 计算 机 停止 其 他 操作 去 装 人 cache 是 值得 的 ， 因 为 这 
是 命运 安排 的 ， 这 个 字 确 实 需要 。 但 是 ， 阻 塞 计 算 机 去 取 一 个 以 后 用 不 到 的 字 就 得 不 偿 失 了 。 
这 种 类 似 的 “优化 ”措施 多 了 以 后 ， 反 而 会 使 计算 机 比 没有 采取 任何 优化 措施 时 更 慢 。( 如 果 
该 计算 机 使 用 了 虚拟 内 存 ， 推 测 执行 的 LOAD 指令 甚至 会 产生 缺 页 ， 这 会 导致 把 该 页 调 人 内 
存 的 磁盘 操作 。 不 必要 的 缺 页 对 性 能 有 很 大 的 影响 ， 因 此 避免 这 样 的 操作 很 重要 。 虚 拟 内 存 
将 在 第 6 章 中 讨论 。) 

在 某 些 现代 计算 机 中 采用 的 一 种 方案 是 使 用 特殊 的 SPECULATIVE-LOAD 指令 ， 它 从 
cache 中 取 字 ， 如 果 字 不 在 cache 中 ， 就 放弃 。 如 果 值 在 cache 中 而 且 实 际 需要 该 值 ， 就 直 
接 使 用 ,但 是 如 果 它 不 在 cache 中 ， 硬 件 就 必须 去 取得 它 。 如 果 该 值 实际 上 并 不 需要 ， 那 么 
cache 缺失 就 不 会 对 性 能 产生 任何 影响 。 

更 糟糕 的 情况 如 下 面 的 语句 所 示 : 

if (x > 0) z = y/x; 


语句 中 ,x、y、z 都 是 浮 点 数 。 假 定 这 些 变量 都 预先 取 到 寄存 器 中 ， 而 且 ( 速度 很 慢 的 ) 
浮 点 除法 提升 到 证 测试 之 前 执行 。 但 是 ， 很 不 幸 , x 是 0， 产 生 的 除 0 陷阱 会 中 止 整个 程序 。 
这 里 ， 推 测 执行 的 结果 将 使 正确 的 程序 失败 。 更 糟糕 的 是 ， 程 序 员 不 得 不 写 代码 防止 这 种 到 
处 都 会 发 生 的 情况 出 现 。 这 会 使 程序 员 很 苦恼 。 

一 种 可 行 的 解决 方案 是 对 所 有 可 能 产生 异常 的 指令 都 指定 一 个 用 于 推测 执行 的 特殊 版 本 。 
另外 ， 为 每 个 寄存 器 增加 一 个 毒性 位 (poison bit )。 当 特殊 的 猜测 指令 失效 时 ， 不 产生 陷阱 ， 
而 是 设置 结果 寄存 器 的 毒性 位 。 当 通常 版 本 的 指令 操作 该 寄存 器 时 ， 将 会 产生 陷阱 ( 这 是 应 ”[B23] 
该 的 )。 但 是 ， 如 果 结 果 从 不 使 用 ， 毒 性 位 最 终 会 被 清除 而 且 不 会 产生 任何 危害 。 
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4.6 微 体系 结构 层 举例 


本 节 我 们 将 以 三 种 最 流行 的 处 理 器 为 简单 例子 ， 看 看 它们 是 如 何 应 用 本 章 讨 论 的 概念 的 。 
对 这 些 实例 的 讨论 进行 了 简化 ， 因 为 实际 的 CPU 相当 复杂 ， 包 括 数 百 万 个 门 。 我 们 使 用 的 仍 
然 是 目前 为 止 我 们 一 直 在 使 用 的 例子 : Core i7, OMAP4430 和 ATmega 168。 


4.6.1 Core i7 CPU 的 微 体系 结构 


从 外 特性 上 来 看 ，Core i7 呈现 出 来 的 是 一 种 传统 的 CISC 机 器 ， 它 具有 支持 8、16、32 
位 整数 操作 和 32、64 位 浮 点 数 操 作 的 数量 众多 但 使 用 不 便 的 指令 集 。 它 的 每 个 处 理 器 只 有 
8 个 可 见 的 寄存 器 ， 而 且 它 们 还 各 不 相同 。 指 令 长 度 也 长 短 不 一 ， 从 1 个 字 节 到 17 个 字 节 都 
有 。 简 而 言 之 ，Core i7 是 一 个 祖传 的 体系 结构 ， 而 且 每 处 设计 都 有 问题 。 

但 是 从 内 部 实现 来 看 ，Core i7 具有 现代 、 精 简 高 效 、 深 度 流 水 的 RISC 内 核 ， 这 个 内 核 
以 极 快 的 时 钟 频率 运行 ， 而 且 这 个 时 钟 频率 还 在 逐年 提高 。 有 一 点 是 相当 令 人 赞叹 的 ， 那 就 
是 Intel 的 工程 师 况 然 设法 构建 出 具有 当前 工艺 水 平 的 处 理 器 ， 而 实现 了 一 种 古老 的 体系 结 
构 。 本 节 我 们 就 来 研究 一 下 Core i7 的 微 体系 结构 ， 看 看 它 是 如 何 工作 的 。 

1. Core i7 的 Sandy Bridge 微 体系 结构 概况 

Core i7 微 体系 结构 被 命名 为 Sandy Bridge， 它 是 Intel 对 上 一 代 微 体系 结构 ， 包 括 早期 
的 P4 和 了 6 微 体系 结构 进行 重大 改进 后 的 结果 。 图 4-46 给 出 了 Core i7 微 体系 结构 的 总 体 
概况 。 


到 共享 的 第 3 级 cache 











图 4-46 Core i7 中 Sandy Bridge 微 体系 结构 框图 


Core i7 包括 四 个 主要 的 部 分 : 内 存 子 系统 、 前 端 、 乱 序 控制 和 执行 单元 。 下 面 我 们 就 从 
左上 角 开 始 按 逆 时 针 方 向 来 逐个 分 析 一 下 芯片 的 各 个 部 分 。 

Core i7 的 每 个 处 理 器 中 包含 内 存 子 系统 ， 其 中 包括 一 个 统一 的 L2 (第 二 级 ) cache， 以 
及 访问 L3 (第 三 级 ) cache 的 逻辑 。 第 三 级 cache 是 单独 的 ， 由 Core i7 的 所 有 处 理 器 共享 ， 
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容量 比较 大 ， 是 整个 存储 系统 在 CPU 芯片 内 的 最 后 一 站 ， 再 下 去 就 要 开始 通过 存储 总 线 访 
问 外 部 RAM 的 漫长 过 程 了 。Core i7 的 L2 cache 容量 是 256KB, 采用 8 路 组 相连 结构 ， 每 个 
cache REE 64 字 节 。 根 据 CPU 的 价格 的 不 同 ，L3 级 cache 容量 大 小 为 1IMB ~ 20MB, 采用 
的 是 12 路 组 相连 结构 ， 块 大 小 为 64 字 节 。 如 果 L3 级 cache 缺失 ， 则 需要 经 DDR3 RAM 总 
线 去 访问 CPU 芯片 外 部 的 RAM。 

All L1 cache 相连 的 是 两 个 预 取 单 元 ( 图 中 没有 给 出 )， 它 们 的 作用 是 尝试 着 在 需要 数 
据 之 前 从 主 存 子 系统 的 较 低层 次 中 将 数据 预 取 到 LI cache 中 。 一 个 预 取 单 元 在 检测 到 有 一 
个 顺序 的 内 存 “ 流 ”正在 被 预 取 到 处 理 器 时 ， 将 下 一 个 内 存 块 预 取 过 来 。 另 外 一 个 要 复杂 
一 些 ， 它 跟踪 程序 特定 的 读 写 内 存 地 址 的 序列 ， 如 果 这 些 序列 存在 一 个 有 规律 的 步 长 (如 ， 
0x1000…0x1020…0x1040 )， 它 就 会 把 程序 可 能 要 访问 的 下 一 个 元 素 预 取 过 来 。 这 种 面向 步 长 
的 预 取 方式 ， 考 虑 的 是 程序 访问 结构 化 变量 构成 的 数组 时 的 场景 。 

图 4-46 中 内 存 子 系统 和 前 端 、L1 级 数据 cache 都 有 连接 。 前 端 部 分 负责 从 内 存 子 系统 取 
指令 ， 并 将 它们 译 码 成 类 似 RISC 的 微 操作 序列 ， 然 后 分 别 存储 到 两 类 存放 指令 的 cache 中 。 
所 有 被 取出 的 指令 均 被 存放 到 Ll (第 一 级 ) 指令 cache, Z cache 大 小 为 32KB， 按 8 路 组 相 
连 组 织 ，cache 块 大 小 为 64 字 节 。 指 令 从 L1 cache 中 取出 并 送 入 译 码 器 。 在 这 里 被 译 码 成 用 
于 在 指令 执行 流水 线 中 实现 指令 功能 的 微 操 作 序 列 。 这 种 译 码 机 制 就 成 了 架设 在 古老 的 CISC 
指令 集 和 现代 的 RISC 数据 通路 鸿沟 之 间 的 桥梁 。 

译 码 之 后 的 微 操 作 被 装 入 微 操作 cache ( micro-op cache )， 也 就 是 Intel 所 指 的 L0 (第 0 
级 ) 指令 cache。 微 操作 cache 和 传统 的 指令 cache 类 似 ， 不 同 的 是 它 有 足够 的 额外 空间 来 保 
存 每 条 指令 所 产生 的 微 操 作 序 列 。 告 一 看 ， 你 也 许 会 认为 Intel 这 样 做 是 为 了 提高 流水 线 的 处 
理 速度 ( 它 也 确实 提高 了 人 处理 指 令 的 速度 ), 但 Intel 宣称 的 是 ， 增 加 微 操作 cache 主要 是 为 了 
减少 前 端 部 分 的 能 耗 。 配 置 微 操作 cache 后 ， 前 端的 其 他 部 分 80% 的 时 间 可 以 在 无 时 钟 控制 
的 低能 耗 模 式 下 睡眠 。 

分 支 预测 也 在 前 端 部 分 完成 。 分 支 预测 负责 在 指令 流 从 纯粹 的 顺序 执行 状态 改变 为 跳 转 
时 猜测 跳 转 方向 ， 关 键 在 于 它 要 在 远 早 于 分 支 指 令 执 行 之 前 完成 猜测 过 程 。Core i7 的 分 支 预 
测 做 得 非常 好 ， 但 对 我 们 来 说 不 幸 的 是 ， 它 的 大 多 数 设 计 细 节 依 然 被 高 度 保密 。 原 因 在 于 一 
般 情况 下 ， 预 测 器 的 性 能 对 于 整个 设计 的 性 能 是 最 关键 的 因素 。 设 计 者 从 每 平方 毫米 硅 片 上 
挤 出 的 预测 精度 越 高 ， 整 个 设计 结果 的 性 能 就 会 越 好 。 正 因为 如 此 ， 公 司 对 这 些 秘 密 严 加 保 
护 ， 甚 至 会 以 诉 诸 法 律 来 威胁 员工 ， 来 阻止 他 们 企图 和 别人 分 享 这 些 知识 明珠 。 简 单 说 ， 尽 
管 大 家 都 是 记录 了 程序 上 次 跳 转 时 的 地 址 并 用 这 些 信息 来 预测 下 次 的 方向 ， 但 是 ， 到 底 记 录 
了 哪些 信息 、 如 何 保存 和 对 这 些 信 息 进 行 查找 依然 是 高 度 秘密 。 毕 竟 ， 如 果 你 有 一 个 十 分 好 
的 方法 来 预测 未 来 ， 估 计 你 也 不 会 把 它 放 到 Web 上 让 全 世界 都 知道 。 

从 微 操作 cache 中 取出 的 指令 按照 程序 中 指定 的 顺序 装 人 乱 序 执行 调度 器 ， 但 是 这 些 指 
令 不 一 定 非 要 按照 程序 中 的 顺序 发 射 。 当 遇 到 不 能 被 执行 的 微 操 作 时 ， 调 度 器 就 将 它 保存 起 
来 ， 然 后 继续 处 理 指令 流 ， 发 射 那些 所 有 资源 寄存器、 功能 单元 等 ) 都 可 用 的 后 续 指 令 。 
寄存 器 重 命名 也 在 这 里 完成 ， 这 样 就 使 得 带 有 WAR 和 WAW 相关 的 指令 能 够 没有 延迟 而 继续 
执行 下 去 。 

尽管 指令 可 以 乱 序 发 射 ， 但 Core i7 体系 结构 精确 中 断 的 需求 ， 意 味 着 机 器 指令 必须 按照 
程序 顺序 完成 (也 就 是 指令 执行 结果 可 见 )。 专门 有 指令 完成 单元 来 处 理 这 些 复杂 的 事情 。 

图 4-46 中 右上 部 分 是 执行 单元 ， 它 能 够 执行 整数 、 浮 点 数 和 一 些 特殊 的 指令 。 这 里 有 多 
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个 执行 单元 而 且 可 以 并 行 运行 。 它 们 从 寄存 器 组 和 第 1 级 数据 cache 获取 数据 。 


2. Core i7 的 Sandy Bridge 流水 线 

图 4-47 是 展示 Sandy Bridge 微 体系 结构 流水 线 功 能 的 简化 版 本 。 图 的 最 上 面 是 前 端 ， 它 
的 作用 是 从 主 存 读 取 指 令 并 为 执行 这 些 指 令 做 准备 。 前 端 从 L1 cache 获取 新 的 x86 指令 ， 并 
对 指令 进行 译 码 ， 成 为 微 操 作 指 令 后 存 人 微 操 作 cache 中 。 微 操作 cache 内 可 以 保存 约 1.5K 
个 微 操作 。 此 容量 的 微 操作 cache 与 传统 的 6KB 的 LO cache 性 能 上 差不多 。 微 操作 cache 中 
保存 的 是 多 组 由 6 个 微 操作 构成 的 跟踪 块 。 对 于 更 长 的 微 操作 序列 ， 多 个 跟踪 块 可 以 连接 在 
一 起 。 


乱 序 控制 
逻辑 





指令 完成 单元 


图 4-47 Core i7 数据 通路 的 简化 视图 


如 果 译 码 单元 碰 到 条 件 分 支 ， 那 么 ， 它 将 查询 分 支 预测 器 (branch predictor) 中 该 分 支 
的 跳 转 方向 。 分 支 预测 器 中 保存 了 过 去 跳 转 的 历史 ， 它 用 这 个 历史 数据 来 猜测 下 次 遇 到 这 个 
跳 转 时 是 否 要 转移 。 前 面 介 绍 的 高 度 保 密 的 算法 就 用 在 这 里 。 

如 果 该 条 分 支 指令 在 表 中 找 不 到 ， 那 么 就 用 静态 预测 的 方法 。 若 是 向 后 跳 转 ， 则 假定 它 
是 在 一 个 循环 体 中 ， 认 为 跳 转 应 该 发 生 。 这 个 静态 预测 的 准确 率 相 当 高 。 而 如 果 是 向 前 跳 转 ， 
则 假定 遇 到 的 是 让 语句 ， 可 以 认为 它 不 会 跳 转 。 这 种 情况 下 的 准确 率 要 远 低 于 向 后 跳 转 时 的 
准确 率 。 

对 于 确定 转移 的 分 支 语句 ， 可 以 用 分 支 目 标 缓存 branch target Buffer, BTB ) 来 判断 转 
移 的 目标 地 址 。BTB 中 保存 的 是 分 支 语 句 上 次 转移 时 的 目标 地 址 。 大 多 数 时 候 这 个 地 址 是 正 
确 的 (实际 上 ， 对 于 跳 转 到 一 个 常量 偏 移 量 时 总 是 正确 的 )。 间 接 转 移 情 况 下 ， 如 虚 函 数 调用 
和 C++ 的 switch 语句 ， 会 转移 到 多 个 目标 地 址 ， 这 时 可 能 会 被 BTB 预测 的 目标 误导 。 

流水 线 的 第 二 部 分 ， 即 乱 序 控 制 逻 辑 ， 由 微 操 作 cache 供给 数据 。 在 每 个 微 操 作 以 每 周 
期 最 多 4 个 的 速度 从 前 端 进入 时 ， 分配 / 重 命名 单元 (allocation/renaming unit ) 把 它们 记录 在 
168 个 表 项 的 重 排序 缓冲 (ReOrder Buffer, ROB) 表 中 。 表 项 用 来 跟踪 微 操作 的 状态 ， 直 到 
微 操 作 执 行 完 毕 。 分 配 / 重 命名 单元 接着 检查 微 操 作 需 要 的 资源 是 否 都 是 可 用 的 。 如 果 可 用 ， 


微 操 作 就 被 放 到 一 个 调度 器 (scheduler) 的 队列 中 进行 排队 ， 然 后 执行 。 内 存 微 操 作 和 非 内 
存 微 操 作 的 队列 是 分 开 维护 的 。 如 果 一 个 微 操作 不 能 被 执行 ,那么 它 就 要 被 延迟 ， 这 样 就 导 
致 了 微 操作 的 乱 序 执行 。 设 计 这 样 的 策略 是 为 了 使 得 所 有 的 功能 单元 都 尽 可 能 地 处 于 工作 状 
态 。 在 任意 时 刻 ， 最 多 可 以 有 154 条 指令 可 以 同时 处 理 ， 其 中 最 多 可 以 有 64 条 读 内 存 指 令 ， 
最 多 有 36 条 写 内 存 指令 。 

有 时 候 某 个 微 操 作 需 要 暂停 ， 因 为 它 需 要 写 人 一 个 正在 被 前 面 微 操作 读 或 者 写 的 寄存 器 。 
正如 我 们 在 前 面 看 到 的 那样 ， 这 些 冲 突 分 别 被 称 为 WAR 或 者 WAW 相关 。 通 过 重 命名 新 的 微 
操作 的 目标 寄存 器 就 能 够 允许 它 把 自己 的 结果 写 入 160 个 临时 寄存 器 之 一 ， 而 不 是 写 人 到 原 
来 指定 的 ,但 还 处 于 忙 状态 的 目的 寄存 器 。 这 样 就 有 可 能 调度 相应 的 微 操 作 立 即 执行 。 如 果 
没有 可 用 的 临时 寄存 器 ， 或 者 微 操作 具有 RAW 相关 ( 这 些 是 不 能 被 一 纸 盖 过 的 ) BY, e 
器 就 要 在 ROB 表 项 中 记录 问题 的 性 质 。 当 后 面 所 有 需要 的 资源 都 可 用 时 ， 微 操作 就 会 被 放 入 
到 某 个 调度 器 队列 中 。 

当 微 操作 准备 好 了 可 以 执行 的 时 候 ， 调 度 器 队列 将 它们 发 送 给 如 下 6 个 功能 部 件 : 

1) ALU 1 和 浮 点 数 乘法 单元 ; 

2) ALU 2 和 浮 点 数 加 /减法 单元 ; 

3) ALU 3 和 分 支 处 理 及 浮 点 数 比 较 单 元 ; 

4) 写 存储 器 指令 ; 

5) 读 存 储 器 指令 1; 

6) 读 存储 器 指令 2。 

由 于 调度 器 和 ALU 每 个 时 钟 周期 可 处 理 一 个 操作 ， 那 么 3GHz 的 Core i7 调度 器 每 秒 钟 
能 发 出 180 亿 次 操作 ; 但 是 ， 实 际 上 处 理 器 从 来 也 达 不 到 这 个 吞吐 量 。 因 为 前 端 每 个 周期 最 
多 能 提供 4 个 微 操 作 ， 每 个 周期 发 出 6 个 微 操 作 也 仅仅 能 维持 一 个 很 短 的 时 间 ， 调 度 器 队列 
不 久 就 会 排 空 。 而 且 ， 内 存单 元 要 用 4 个 时 钟 来 处 理 一 个 操作 ， 也 使 得 它 只 能 在 较 短 时 间 内 
维持 高 峰 执行 吞吐 量 。 尽 管 不 能 提供 足够 的 执行 资源 保障 ， 但 功能 部 件 确实 具有 极 高 的 执行 
能 力 ， 这 正 是 为 什么 乱 序 控制 要 那么 麻烦 地 为 它们 找 活 干 的 原因 所 在 。 

三 个 整数 ALU 不 是 完全 相同 的 。ALU 1 能 够 完成 所 有 的 算术 和 逻辑 操作 以 及 乘法 、 除 法 
运算 。ALU 2 只 能 够 完成 算术 和 逮 辑 操作 。ALU 3 能 够 完成 所 有 的 算术 和 逻辑 操作 并 处 理 分 
支 指令 。 类 似 地 ， 两 个 浮 点 数 单元 也 不 完全 一 样 。 第 一 个 能 够 完成 浮 点 数 算术 运算 ， 包 括 乘 
法 运算 ; 而 第 二 个 仅 能 完成 浮 点 数 加 、 减 法 和 移动 指令 。 

ALU 和 浮 点 数 单元 从 两 个 各 有 128 个 表 项 的 寄存 器 组 获取 数据 ， 整 数 使 用 一 个 ， 浮 点 数 
使 用 一 个 。 这 些 寄存 器 组 提供 指令 执行 时 需要 的 所 有 操作 数 并 保存 中 间 结 果 。 因 为 寄存 器 重 
命名 的 原因 ， 其 中 有 8 个 寄存 器 包含 指令 系统 层 可 见 的 寄存 器 ( EAX, EBX, ECX, EDX 等 )， 
但 是 这 8 个 寄存 器 中 保持 的 “实际 ” 值 因 为 执行 期 间 映 射 的 变化 随 着 时 间 改 变 。 

Sandy Bridge 体系 结构 引入 了 先进 向 量 扩充 ( Advanced Vector Extension, AVX ) 指令 集 ， 
可 支持 128 位 数据 并 行 向 量 操 作 ， 包 括 整 数 和 浮 点 数 向 量 。 与 先前 的 SSE 及 SSE2 ISA 扩充 
比较 ，AVX 在 向 量 大 小 上 提升 了 2 倍 。 该 体系 结构 如 何在 128 位 的 数据 通路 和 功能 单元 上 实 
现 的 256 位 数据 运算 ? 它 聪 明 地 协同 2 个 128 位 的 调度 器 端口 来 产生 一 个 独立 的 256 位 功能 
单元 。 

L1 数据 cache 紧密 看 合 在 Sandy Bridge 流水 线 的 后 端 ， 它 是 32KB 的 cache， 存 放 整 
数 、 浮 点 数 和 其 他 类 型 的 数据 。 和 微 操 作 cache 不 同 ， 它 不 进行 任何 译 码 ， 只 是 把 内 存 中 的 
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字 节 拷贝 过 来 。L1 数据 cache 采用 8 路 组 相连 组 织 ， 每 块 大 小 为 64 字 节 。 该 cache 采用 “ 写 
回 ” 策 略 ， 也 就 是 说 ，cache 块 被 改写 时 ， 将 该 块 的 “ 脏 ” 位 设置 了 一 个 标记 ， 直 到 该 块 被 
M L1 cache 中 置换 出 去 时 ， 数 据 才 被 写 回 到 L2 级 cache。 数 据 cache 能 够 每 个 时 钟 周期 处 理 
两 次 读 操作 和 一 次 写 操作 ， 这 是 通过 分 体 (banking) 实现 的 。 分 体 把 cache 划分 成 子 cache 
(Sandy Bridge 中 分 成 了 8 个 )， 只 有 在 3 个 访问 针对 不 同 的 子 cache 体 时 ， 它 们 才能 同时 进 
47, 否则 ， 至 少 有 1 个 访问 需要 和 暂停 。 当 需要 的 字 不 在 L1 cache 中 的 时 候 ， 请 求 就 被 发 送 到 
L2 cache, L2 cache 或 者 立即 给 予 响 应 或 者 从 共享 的 L3 cache 中 读 取 相 应 的 cache 块 然 后 再 响 
应 。 任 意 时 刻 最 多 可 以 有 10 个 从 LI1 cache 到 L2 cache 的 请 求 能 被 处 理 。 

因为 微 操 作 能 够 乱 序 执行 ， 所 以 存储 到 L1 cache 的 操作 必须 在 引发 该 存储 操作 的 指令 
前 面 的 所 有 指令 都 完成 之 后 才能 够 进行 。 指 令 完成 单元 〈retirement unit) 的 任务 就 是 按照 进 
人 的 顺序 退出 指令 。 如 果 发 生 了 中 断 ， 还 没有 完成 的 指令 会 中 止 ， 所 以 Core i7 具有 “精确 
中 断 ” 的 特点 ， 到 某 一 特定 点 之 前 所 有 的 指令 都 全 部 完成 ， 而 其 后 面 的 指令 则 不 会 造成 任何 
影响 。 

如 果 一 条 存储 指令 已 经 完成 ， 但 是 更 早 的 指令 还 在 处 理 中 ， 那 么 L1 cache 就 不 能 更 新 ， 
所 以 结果 就 被 放 到 一 个 专用 的 待定 存储 缓冲 区 。 这 个 缓冲 区 有 36 项 ， 对 应 着 36 个 可 能 同 
时 在 执行 的 存储 操作 。 如 果 后 续 的 加 载 试图 读 取 存 储 的 数据 ， 那 么 这 些 数据 就 可 以 直接 从 待 
定 存储 缓冲 区 送 到 指令 ， 即 使 它 还 不 在 LI1 数据 cache 中 。 这 个 过 程 称 作 存储 - 加载 ( store- 
to-load ) 转发 。 这 种 转发 看 起 来 简单 直接 ， 但 实际 上 实现 起 来 十 分 复杂 ， 因 为 中 间 的 存储 有 
些 可 能 还 没有 计算 出 具体 的 地 址 。 这 时 ， 微 体系 结构 无 法 确切 知道 存储 缓冲 区 中 哪 一 项 中 
存 的 是 需要 转发 的 值 。 确 定 某 次 读 操作 要 使 用 缓冲 区 中 哪 项 转发 的 值 的 过 程 叫 相依 性 猜测 
(disambiguation )。 

到 现在 我 们 应 该 清楚 地 知道 Core i7 的 微 体 系 结构 是 高 度 复杂 的 ， 因 为 它 的 设计 就 是 在 
一 个 现代 的 、 高 度 并 行 的 RISC 内 核 上 执行 古老 的 Pentium 指令 集 的 需要 所 驱动 的 。 实 现 这 
个 设计 目标 的 方法 就 是 将 Pentium 的 指令 分 解 为 微 操 作 ， 缓 存 这 些微 操作 ， 然 后 再 将 它们 每 
次 四 个 装 人 到 流水 线 在 一 组 ALU 中 来 执行 ， 在 理想 的 情况 下 一 组 ALU 每 个 周期 最 多 可 以 执 
行 6 个 微 操作 。 微 操作 可 以 乱 序 执 行 ， 但 是 必须 顺序 退出 ， 结 果 也 必须 顺序 存储 到 L1 A L2 
cache 中 。 


4.6.2 OMAP4430 CPU 的 微 体系 结构 


OMAP4430 片上 系统 的 核心 是 两 个 ARM Cortex A9 处 理 器 。 该 处 理 器 是 一 个 高 性 能 的 体 
AB, LPT ARM 指令 系统 (版 本 7 )， 由 ARM 有 限 公司 设计 ,广泛 应 用 于 许多 嵌 人 式 
设备 中 。ARM 本 身 并 不 生产 该 处 理 器 ， 它 仅仅 将 设计 提供 给 芯片 制造 商 ， 由 需要 在 片上 系统 
中 使 用 该 处 理 器 的 制造 商 (如 德州 仪器 等 ) 来 生产 。 

Cortex A9 处 理 器 是 32 位 的 机 器 ， 使 用 32 位 的 寄存 器 和 32 位 的 数据 通路 。 和 内 部 体系 
结构 一 致 ， 存 储 总 线 也 是 32 位 宽 。 和 Core i7 不 同 ，Cortex A9 是 真正 的 RISC 体系 结构 ， 这 
也 就 意味 着 它 不 需要 复杂 的 机 制 把 古老 的 CISC 指令 转变 成 微 操作 来 执行 。 核 心 指令 实际 上 
已 经 就 是 类 似 微 操 作 的 ARM 指令 了 。 然 而 最 近 几 年 ， 图 形 和 多 媒体 指令 又 加 了 进来 ， 这 就 
需要 特殊 的 硬件 部 件 来 执行 这 些 指令 。 

1. OMAP4430 的 Cortex A9 微 体系 结构 概况 

图 4-48 给 出 的 是 Cortex A9 微 体系 结构 的 框图 。 从 总 体 上 来 讲 ， 它 比 Core i7 的 Sandy 
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Bridge 微 体系 结构 简单 得 多 ， 因 为 Cortex A9 要 实现 的 指令 系统 体系 结构 更 简单 。 然 而 ， 它 的 
一 些 关键 部 件 还 是 和 Core i7 中 所 采用 的 很 类 似 。 这 种 类 似 主 要 是 因为 技术 、 能 耗 限制 和 经 济 
所 驱动 的 。 例 如 ， 两 个 设计 中 都 采用 了 多 级 cache 的 层次 结构 ， 以 满足 典型 的 敌人 式 应 用 对 
成 本 的 严格 限制 ， 当然 ，Cortex A9 最 底层 的 cache (L2) 大 小 只 有 IMB, ， 远 小 于 Core i7 最 
底层 cache (L3 ) 最 高 20MB 的 容量 。 相 反 ，Core i7 和 Cortex A9 的 主要 区 别 在 于 前 者 需要 弥 
合 古 老 的 CISC 指令 集合 和 现代 RISC 内 核 之 前 的 鸿沟 ， 而 后 者 则 不 需要 。 

在 图 4-48 的 上 方 是 32KB 的 4 路 组 相连 指令 cache, RH 32 字 节 的 cache 块 。 由 于 大 多 
数 ARM 指令 都 是 4 个 字 节 ， 所 以 指令 cache 的 空间 可 以 容纳 约 8K 条 指令 ， 比 Core i7 的 微 
操作 cache 要 大 一 些 。 

指令 发 射 单 元 ( instruction issue unit) 每 个 时 钟 周 期 准备 最 多 四 条 指令 来 执行 。 如果 在 第 
一 级 cache 中 发 生 了 缺失 ， 那 么 能 够 发 射 的 指令 就 较 少 。 当 遇 到 条 件 分 支 的 时 候 ， 就 要 利用 
具有 4K 个 表 项 的 分 支 预测 器 〈branch table) 来 预测 转移 是 否 发 生 。 如 果 预 测 转移 会 发 生 ， 则 
去 查找 有 1K 表 项 的 分 支 目 标 地址 cache， 得 到 预测 的 目标 地 址 。 另 外 ， 如 果 前 端 检 测 发 现 程 
序 正 在 执行 一 个 紧凑 的 循环 〈 例 如 ， 无 仍 套 的 小 循环 )， 它 会 把 这 个 循环 装 人 到 一 个 快速 循环 
旁 路 cache。 这 个 优化 可 以 提高 取 指 的 速度 并 降低 能 耗 ， 执 行 小 循环 时 ， 就 可 以 让 高 速 缓存 和 
分 支 预测 等 部 件 进入 低能 耗 的 睡眠 模式 了 。 

指令 发 射 单元 的 输出 流 和 人 到 译 码 器 ， 由 译 码 器 决定 指令 需要 使 用 哪些 资源 和 输入 数据 。 [B30 
和 Core i7 一 样 ， 译 码 完成 后 ， 指 令 可 能 被 重 命 名 ， 以 消除 会 减 慢 乱 序 执行 的 WAR 相关 。 重 
命名 后 ， 指 令 被 放 人 到 指令 调度 队列 ， 当 其 需要 的 输入 数据 已 经 准备 好 并 送 达 功能 部 件 时 ， 
指令 被 调度 执行 ， 执 行 过 程 可 能 是 乱 序 的 。 

如 图 4-48 所 示 ， 指 令 调 度 队 列 把 指令 发 送 到 功能 部 件 。 整数 执行 单元 包括 两 个 ALU 和 
一 条 用 于 分 支 指令 的 短 流水 线 。 程 序 员 可 见 的 通用 寄存 器 以 及 一 些 临 时 寄存 器 构成 的 物理 寄 
存 器 组 也 包含 在 功能 单元 里 。Cortex A9 的 流水 线 可 以 选 装 一 个 或 多 个 计算 引擎 ， 作 为 附加 的 
功能 单元 。ARM 支持 一 个 称 为 VEP 的 浮 点 计算 引擎 以 及 称 为 NEON 的 一 个 整数 SIMD 向 量 
计算 单元 。 
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图 4-48 OMAP4430 的 Cortex A9 微 体系 结构 框图 
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区 的 数据 通路 。 数 据 cache 是 传统 的 32KB 的 4 路 组 相连 结构 的 L1 数据 cache， 每 个 cache 块 
32 个 字 节 。 存 储 缓冲 区 中 存放 的 是 暂时 (指令 完成 时 ) 还 没有 被 写 人 到 数据 cache 中 的 数据 。 
执行 读 存 储 指令 时 ， 首 先 会 试 着 从 存储 缓冲 区 中 读数 据 ， 采 用 类 似 于 Core i7 存储 - 加 载 转发 
方式 。 如 果 数 据 在 存储 缓冲 区 中 没有 找到 ， 这 时 才 会 从 数据 cache 中 去 读 。 存 储 读 指 令 执行 
时 可 能 出 现 的 一 个 情况 是 ， 存 储 缓冲 区 给 出 信号 ， 由 于 前 面 指令 的 写 存储 操作 还 没有 得 到 准 
确 的 地 址 ， 本 次 读 操 作 需 要 等 待 。 在 L1 数据 cache 缺失 的 情况 下 ,将 从 统一 的 L2 cache 中 
取出 相应 的 内 存 块 。 在 某 些 特定 场合 ，Cortex AD 为 提高 访问 存储 的 性 能 ， 也 会 使 用 硬件 将 
L2 cache 的 数据 送 到 L1 cache 中 。 

OMAP4430 芯片 还 包括 一 些 控制 内 存 访 问 的 逻辑 。 可 以 分 为 两 个 部 分 : 系统 接口 和 内 存 
控制 器 。 系 统 接口 通过 32 位 宽 的 LPDDR2 总 线 与 内 存 相 连接 。 所 有 对 外 部 世界 的 内 存 请 求 
都 要 通过 这 个 接口 。LPDDR2 总 线 支持 用 26 位 的 ( 字 ， 非 字 节 ) 地 址 ， 连 接 8 个 可 返回 32 
位 数据 字 的 存储 体 。 理 论 上 ， 一 个 LPDDR2 通道 可 以 寻 址 达 2GB 的 空间 ，OMAP4430 有 两 
个 这 样 的 通道 ， 故 可 以 寻 址 最 多 4GB 的 外 部 RAM. 

内 存 控制 器 将 32 位 的 虚 地 址 映射 为 32 位 的 物理 地 址 。Cortex A9 支持 虚拟 内 存 (在 第 
6 章 讨论 )， 页 大 小 可 以 是 4KB。 为 了 加 速 映 射 ， 经 常 采用 称 为 转换 旁 路 缓冲 区 (Translation 
Lookaside Buffer, TLB ) 的 特殊 表 来 对 当前 引用 的 虚 地 址 和 最 近 引 用 的 地 址 进行 比较 。 为 了 
分 别 映射 指令 和 数据 地 址 ， 使 用 了 两 个 这 样 的 表 。 

2. OMAP4430 Cortex A9 的 流水 线 

Cortex A9 有 一 条 11 段 的 流水 线 ， 图 4-49 是 简单 的 图 示 。11 个 流水 段 在 图 左边 使 用 缩写 
的 阶段 名 称 进行 表示 。 我 们 现在 来 简要 分 析 一 下 各 段 。Fel (Fetch #1: 取 指 第 1 步 ) 段 是 流 
水 线 的 起 始 部 分 。 在 这 段 要 确定 下 一 条 指令 的 地 址 ， 并 交 给 指令 cache， 以 及 分 支 预测 器 。 通 
常情 况 下 ， 这 个 地 址 就 是 紧 跟 当前 指令 之 后 的 地 址 。 然 而 ， 这 种 顺序 关系 往往 因为 各 种 原因 
而 被 破坏 ,例如 它 的 前 一 条 指令 是 分 支 指令 并 被 预测 分 支 会 发 生 ， 或 者 发 生 了 陷阱 、 中 断 等 。 
因为 取 指 和 分 支 预测 需要 多 个 时 钟 周 期 ， 所 以 Fe2 (Fetch #2: 取 指 第 2 步 ) 阶段 提供 了 额外 
的 时 间 来 完成 这 些 操 作 。 到 Fe3 (Fetch #3: 取 指 第 3 步 ) 阶段 时 ， 被 取出 的 指令 (最 多 4 条 ) 
被 送 入 到 指令 队列 。 

Del 和 De2 (Decode : 译 码 ) 阶段 对 指令 进行 译 码 。 这 个 步骤 要 判定 指令 的 执行 需要 哪些 
输入 数据 ( 寄存 器 和 存储 器 )， 以 及 需要 哪些 功能 部 件 来 完成 指令 的 功能 。 一 旦 译 码 完 成 ， 指 令 
将 进入 Re (Rename, EmA ) 阶段 ， 在 这 个 阶段 对 寄存 器 进行 必要 的 重 命名 ， 以 消除 乱 序 执行 
时 的 WAR 和 WAW 相关 。 重 命名 表 中 记录 了 物理 寄存 器 中 当前 存放 的 是 哪个 程序 员 可 见 寄存 器 
的 值 。 通 过 重 命名 表 ， 任 何 输入 寄存 器 都 能 很 容易 地 被 重 命名 。 输 出 寄存 器 必须 重新 定向 到 一 
个 来 自 未 使 用 的 物理 寄存 器 池 中 的 寄存 器 ， 在 整 条 指令 完成 之 前 ， 该 物理 寄存 器 一 直 被 占用 。 

下 一 步 ， 指 令 进 入 到 Iss (Instruction Issue， 指 令 发 送 ) 阶段 ， 被 送 入 到 指令 发 送 队列 。 
发 送 队 列 观察 哪 条 指令 的 输入 数据 已 经 准备 好 ， 也 就 是 说 ， 其 所 需要 的 寄存 器 数据 已 经 得 到 
(从 物理 寄存 器 组 或 者 是 旁 路 总 线 上 )， 则 该 指令 进入 到 执行 阶段 。 和 Core i7 一 样 ，Cortex A9 
有 可 能 不 按 程序 的 顺序 发 送 指令 。 每 个 时 钟 周期 最 多 发 送 4 条 指令 ， 指 令 的 选择 还 受到 可 用 
功能 部 件 的 限制 。 

Ex ( Execution, HÍT ) 阶段 是 指令 真正 被 执行 的 阶段 。 大 多 数 算术 、 布 尔 和 移 位 指令 使 
用 整数 ALU， 并 在 一 个 周期 内 完成 。 存 储 访问 指令 用 两 个 周期 ( 如 果 在 LI cache 中 命中 的 
话 )， 乘 法 需要 三 个 周期 。Ex 阶段 中 包含 多 个 功能 部 件 ， 它 们 是 : 
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图 4-49 OMAP4430 的 Cortex A9 流水 线 的 简单 表示 


1) 整数 ALU 1。 

2) 整数 ALU 2。 

3 ) 乘法 单元 。 

4) 浮 点 和 SIMD 向 量 ALU (可 选 配 VFP Fil NEON )。 

5 ) 存储 访问 单元 。 

条 件 转移 指令 也 是 在 第 一 个 Ex 阶段 处 理 的 ， 并 且 计 算出 转移 方向 ( 跳 转 /不 跳 转 ) 4 
发 现 预 测 错误 时 ， 需 要 发 送 一 个 信号 回 Fel 阶段 并 排 空 流水 线 。 

执行 阶段 完成 后 ， 指 令 进 入 WB ( WriteBack， 写 回 ) 阶段 ， 此 时 每 条 指令 立即 修改 物理 
寄存 器 文件 ， 其 后 ， 如 果 指 令 是 正和 运行 的 指令 中 最 旧 的 一 条 ， 它 还 要 将 其 结果 写 人 到 程序 员 
可 见 的 寄存 器 组 中 。 如 果 发 生 陷 阱 和 中 断 ， 只 有 保存 在 程序 员 可 见 的 寄存 器 组 中 的 值 ， 而 不 
是 那些 物理 寄存 器 组 中 的 值 ， 可 以 被 看 到 。 将 结果 写 人 到 程序 员 可 见 的 寄存 器 组 的 动作 等 同 
于 Core i7 的 指令 完成 。 另 外 , 在 WB 阶段 ， 所 有 写 存 储 器 的 指令 结束 时 都 要 把 结果 写 人 到 
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L1 数据 cache. 
关于 Cortex A9 的 描述 远 谈 不 上 完整 ， 这 里 只 是 给 出 它 工 作 原 理 的 合理 叙述 ， 以 及 它 和 
Core i7 微 体系 结构 的 区 别 。 


4.6.3 ATmega168 微 控制 器 的 微 体系 结构 


我 们 最 后 一 个 例子 是 Atmel 的 ATmegal68 微 体 系 结构 ， 如 图 4-50 所 示 。ATmegal168 与 
Core i7, OMAP4430 相 比 要 简单 得 多 。 原 因 在 于 为 满足 能 人 式 设 计 市 场 的 要 求 ， 这 个 芯片 应 
非常 小 和 便宜 。 因 此 ，ATmega168 主要 的 设计 目标 是 为 了 降低 芯片 成 本 ， 并 不 追求 高 速 。 便 
宜 和 简单 是 好 友 ， 但 便宜 和 高 速 可 不 是 朋友 。 


Flash 程 序 
存储 器 


8 位 主 总 线 











EEPROM 





图 4-50 ATmegal68 的 微 体 系 结构 


ATmegal68 的 核心 是 8 位 的 主 总 线 。 连 接 在 主 总 线 上 的 是 寄存 器 和 状态 位 、ALU、 内 
存 以 及 LO 设备 。 下 面 我 们 就 简要 介绍 一 下 它们 。 寄 存 器 组 中 有 32 个 8 位 的 寄存 器 ， 用 于 
存放 程序 的 临时 结果 。 状 态 和 控制 寄存 器 中 保存 了 上 次 ALU 运算 的 条 件 码 ( 即 ， 符 号 、 涪 
出 、 负 、 结 果 0 以 及 进位 等 )， 以 及 表示 是 否 有 中 断 等 待 处 理 的 标记 位 。 程 序 计 数 器 PC 保存 
着 当前 正在 执行 的 指令 的 地 址 。 要 完成 ALU 运算 ， 先 要 从 寄存 器 中 获得 操作 数 并 送 往 ALU。 
ALU 的 计算 结果 可 以 经 主 总 线 输出 到 任何 一 个 可 写 的 寄存 器 。 

ATmegal68 有 多 个 内 存 来 存放 数据 和 指令 。 其 中 ， 数 据 SRAM 有 1KB， 对 于 主 总 线 
上 的 8 位 地 址 来 说 ,已 经 超出 了 其 寻 址 范围 。 为 此 ， 使 用 AVR 体系 结构 来 解决 这 个 问题 ， 
将 内 存 地 址 用 一 对 8 位 寄存 器 共同 提供 ， 产 生 16 位 的 地 址 ， 可 寻 址 64KB 的 数据 存储 器 。 
EEPROM 提供 了 最 多 1KB 的 非 电 易 失 的 存储 ， 程 序 可 将 掉 电 后 也 要 保存 的 数据 写 在 这 里 面 。 

类 似 的 机 制 也 用 于 对 程序 空间 寻 址 ， 但 64KB 的 代码 即使 对 低 成 本 的 圣人 式 系统 来 说 也 
太 小 。 为 了 能 寻 址 更 大 一 些 的 指令 存储 空间 ，AVR 体系 结构 中 定义 了 3 RAM 页 寄存 器 
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RAMPX, RAMPY 和 RAMPZ， 每 个 有 8 位 宽 。 用 RAM 页 寄存 器 和 16 位 的 寄存 器 对 拼接 在 
一 起 ， 生 成 24 位 的 程序 地 址 ， 可 寻 址 16MB 的 指令 空间 。 

不 妨 停 下 来 考虑 一 下 这 个 问题 。64KB 的 代码 空间 居然 对 一 个 也 许 只 是 控制 玩具 或 小 装 
置 的 微 控制 器 来 说 太 小 ? 1964 年 ，IBM 推出 了 System 360 的 30 型 号 ， 总 共 也 就 64KB 的 内 
存 (也 没有 使 用 任何 技巧 来 提升 容量 )。 当 时 的 售 价 为 250 000 美元 ， 大 致 相当 于 现在 的 200 
万 美元 。ATmegal168 仅 售 1 美元 ， 购 买 量 大 的 话 还 可 以 更 优惠 。 如 果 去 检查 一 下 ， 比 如 波音 
的 价格 单 ， 就 会 发 现 飞机 的 价格 在 过 去 的 50 多 年 来 并 没有 以 250 000 的 比例 下 降 。 汽 车 、 电 
视 机 等 任何 东西 价格 也 没有 下 降 这 么 快 的 ， 除 了 计算 机 。 

另外 ，ATmegal168 有 片 内 中 断 控 制 器 、 串 行 端口 接口 (SPI ) 和 计时 器 ， 可 以 用 于 实时 应 
FA. ATmegal68 还 有 3 个 8 位 数字 IO 端口 ， 通 过 这 些 端口 可 以 控制 最 多 24 个 外 部 按钮 、 指 
示 灯 、 传 感 器 、 制 动 装置 等 。 由 于 具有 定时 器 和 IO 端口 ， 这 使 得 ATmegal168 可 以 不 使 用 额 
外 的 芯片 就 能 用 于 骨 入 式 应 用 。 

ATmegal68 是 一 个 同步 处 理 器 ， 大 多 数 指令 都 可 以 在 一 个 时 钟 周 期 内 完成 ， 某 些 指令 可 
能 要 占用 多 个 时 钟 周 期 。 处 理 器 以 某 种 流水 方式 工作 ， 如 取 当 前 指令 时 ， 上 一 条 指令 正在 被 
执行 。 流 水 线 只 有 两 级 ， 取 指 和 执行 。 为 在 一 个 时 钟 周 期 内 执行 一 条 指令 ,时 钟 周期 必须 足 
够 容纳 从 寄存 器 组 读 寄存 器 的 值 、 在 ALU 中 完成 指令 功能 ， 再 把 结果 写 回 到 寄存 器 组 的 全 过 
程 。 由 于 所 有 这 些 操作 都 在 一 个 时 钟 周期 内 发 生 ， 就 不 再 需要 旁 路 逻辑 和 冲突 检测 了 。 程 序 
中 的 指令 按 顺 序 执行 ， 每 条 指令 一 个 时 钟 ， 执 行 过 程 不 和 其 他 指令 重生 。 

尽管 我 们 可 以 更 详细 地 介绍 ATmega168 的 细节 ， 但 我 们 上 面 的 介绍 以 及 图 4-50 只 给 出 
了 基本 思想 。ATmega168 具有 单条 主 总 线 ( 以 减少 芯片 面积 )， 附 加 在 主 总 线 上 的 是 一 组 异 构 
的 寄存 器 ， 外 加 多 种 存储 器 和 外 部 VO 设备 挂 接 在 主 总 线 上 。 在 每 个 数据 通路 周期 ， 两 个 操 
作 数 从 寄存 器 组 中 读 出 ， 经 过 ALU 运算 结果 保存 到 一 个 寄存 器 中 ， 这 和 很 多 现代 的 计算 机 的 
处 理 方式 相同 。 


4.7 Core i7、OMAP4430 和 ATmega168 三 种 CPU 的 比较 


这 三 种 CPU 各 不 相同 , 但 是 它们 的 核心 部 分 却 有 着 令 人 惊讶 的 共性 。Core i7 有 一 个 古 
老 的 CISC 指令 集 ，Intel 的 工程 师 一 定 很 想 把 它 扔 到 旧金山 湾 中 ， 只 不 过 这 样 做 会 触犯 加 州 
的 水 污染 法 。OMAP4430 是 一 个 纯 RISC 设计 ， 其 指令 很 贫乏 。ATmegal168 是 一 个 用 于 艇 人 
式 应 用 的 简单 的 8 位 处 理 器 。 然 而 ， 这 几 种 CPU 的 核心 都 是 一 组 寄存 器 以 及 一 个 或 多 个 对 寄 
存 器 操作 数 进 行 简单 算术 和 逻辑 操作 的 ALU。 

尽管 具有 明显 的 外 部 区 别 ，Core i7 和 OMAP4430 还 是 具有 相当 类 似 的 执行 单元 。 这 些 
执行 单元 都 接收 由 一 个 操作 码 、 两 个 源 寄存 器 和 一 个 目的 寄存 器 组 成 的 微 操 作 。 它 们 都 在 一 
个 周期 内 执行 一 条 微 操作 。 它 们 都 有 深度 的 流水 线 并 采用 分 支 预 测 技 术 。 它 们 都 使 用 了 分 离 
的 指令 cache 和 数据 cache. 

这 种 内 在 的 相似 性 并 不 是 偶然 的 ， 甚 至 和 硅谷 的 工程 师 们 不 断 地 跳槽 有 关 。 我 们 在 
Mic-3 和 Mic-4 的 例子 中 曾经 见 过 ， 设 计 一 条 使 用 两 个 源 寄 存 器 ， 使 它们 通过 ALU， 并 把 结 
果 存 回 一 个 寄存 器 的 流水 线 型 的 数据 通路 是 很 容易 而 且 自 然 的 。 图 4-34 用 图 形 的 方式 表示 了 
这 种 流水 线 。 在 当前 的 技术 条 件 下 ， 这 是 最 有 效 的 设计 。 

Core i7 和 OMAP4430 之 间 的 最 主要 的 区 别 是 它们 把 指令 集 发 送 到 执行 单元 的 方式 不 同 。 
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Core i7 把 它 的 CISC 指令 拆 开 并 装配 成 执行 单元 需要 的 三 寄存 器 格式 。 这 正 是 图 4-47 中 前 端 
所 完成 的 工作 ， 把 复杂 的 指令 划分 成 了 简洁 而 整齐 的 微 操作 。OMAP4430 则 不 需要 做 任何 事 
情 ， 因 为 它 本 来 的 ARM 指令 已 经 是 简洁 而 整齐 的 微 操 作 。 这 就 是 为 什么 大 多 数 新 的 指令 系 
统 层 都 采用 RISC 类 型 的 原因 ， 这 样 就 能 够 在 ISA 指令 集 和 内 部 执行 引擎 达到 更 好 的 一 致 性 。 

把 我 们 最 终 的 设计 一 一 Mic-4 和 这 两 种 实际 的 CPU 进行 比较 将 对 我 们 很 有 启发 。Mic-4 
更 像 Core i7。 它 们 都 需要 解释 非 RISC 的 指令 系统 层 的 指令 集 。 方 法 都 是 把 指令 划分 成 带 一 
个 操作 码 、 两 个 源 寄存 器 和 一 个 目的 寄存 器 的 微 操作 。 划 分 之 后 ， 微 操作 都 被 放 入 队列 等 待 
执行 。Mic-4 是 严格 按 序 发 射 、 按 序 执行 、 按 序 完成 的 ， 而 Core i7 则 采用 了 按 序 发 射 、 乱 序 
执行 和 按 序 完成 的 策略 。 

336 Mic-4 和 OMAP4430 不 太 具 有 可 比 性 ， 因 为 OMAP4430 使 用 RISC 指令 集 ( 也 就 是 三 寄 
存 器 的 微 操作 ) 作为 其 指令 系统 。 它 们 不 需要 拆 分 ， 可 以 按照 一 个 数据 通路 周期 中 一 条 的 速 
度 执行 。 

与 Core i7 和 OMAP4430 相对 比 ，ATmega168 真是 一 个 简单 的 CPU。 它 更 类 似 于 RISC 
而 不 是 CISC， 因 为 它 大 多 数 的 简单 指令 都 能 在 一 个 时 钟 周期 内 执行 完 ， 不 需要 再 进行 分 解 。 
它 没有 流水 线 ， 没 有 cache， 它 顺序 发 射 、 顺 序 执行 ， 而 且 顺 序 完成 。 从 简单 这 一 点 上 来 看 ， 
ATmegal68 更 类 似 于 Mic-1。 
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数据 通路 是 所 有 CPU 的 核心 。 它 包括 一 些 寄存 器 ， 一 条 、 两 条 或 者 三 条 总 线 ， 一 个 或 者 
更 多 的 功能 单元 ， 比 如 ALU 和 移 位 器 。 主 执行 循环 包括 从 寄存 器 取 操 作 数 ， 通 过 总 线 把 它们 
传送 给 ALU 和 其 他 的 功能 单元 执行 。 然 后 把 最 终 的 结果 存 回 寄 存 器 。 

数据 通路 可 以 由 定 序 器 控制 ， 定 序 器 从 控制 存储 器 中 取出 微 指令 。 每 条 微 指 令 都 由 在 一 
个 时 钟 周期 内 控制 数据 通路 的 位 构成 。 这 些 位 定义 了 应 选择 的 操作 数 ， 执 行 的 运算 和 如 何 处 
理 运算 结果 。 另 外 ， 每 条 微 指令 都 定义 了 其 后 继 微 指令 ， 一 般 是 给 出 后 继 微 指 令 的 地 址 。 某 
些微 指令 在 使 用 基地 址 之 前 要 通过 把 某 些 位 和 基地 址 进行 或 ( OR ) 操作 来 修改 这 个 地 址 ; 

IJVM 是 栈 计算 机 ， 它 使 用 一 个 字 节 的 操作 码 把 字 压 入 栈 ， 从 栈 中 弹出 字 并 对 栈 中 的 字 进 
行 运算 (如 ADD )。Mic-1 微 体系 结构 是 由 微 程序 实现 的 。 通 过 增加 取 指 单元 来 预 取 指 令 流 中 
的 指令 ， 可 以 减少 许多 对 程序 计数 器 的 访问 并 极 大 地 提高 CPU 的 速度 。 

设计 微 体系 结构 层 有 多 种 方式 。 存 在 许多 折 中 ， 包 括 使 用 双 总 线 设 计 还 是 三 总 线 设计 ， 
是 否 编 码 微 指令 的 字段 ， 是 否 使 用 预 取 ， 流 水 线 的 深浅 等 。Mic-1 是 一 个 简单 的 、 软 件 控 制 的 
CPU， 它 完全 串 行 执行 ， 没 有 任何 并 行 性 。 而 Mic-4 则 是 使 用 了 7 级 流水 线 的 高 度 并 行 的 微 
体系 结构 。 

可 以 使 用 各 种 不 同 的 措施 提高 性 能 。cache 是 其 中 主要 的 一 种 。 直 接 映射 的 cache 和 组 相 
连 的 cache 是 最 常见 的 加 速 内 存 访问 的 高 速 缓存 。 苦 态 和 动态 的 分 支 预测 也 很 重要 ， 其 他 的 
措施 还 有 乱 序 执行 和 推测 执行 。 

我 们 的 三 种 实例 CPU, Core i7、OMAP4430 和 ATmega168， 它 们 的 微 体 系 结构 都 对 使 
用 指令 系统 层 的 汇编 语言 程序 员 不 可 见 。Core i7 的 设计 方案 是 相当 复杂 的 ， 它 要 将 指令 系 
统 层 的 指令 转换 为 微 操 作 ， 然 后 送 入 高 速 缓存 ， 再 将 它们 提供 给 超标 量 的 RISC 内 核 进行 乱 

[337] 序 执行 、 寄 存 器 重 命名 等 ， 还 要 利用 本 书 中 提 到 的 各 种 窍门 来 获取 硬件 最 后 一 点 速度 提升 。 
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OMAP4430 虽然 具有 深度 流水 线 ， 但 它 仍旧 相当 简单 ， 因 为 它 按 序 发 射 、 按 序 执 行 ， 而 且 按 

序 完成 。ATmegal168 非常 简单 ， 只 有 一 条 简单 的 主 总 线 ， 还 有 少量 的 寄存 器 和 一 个 ALU 连接 

到 这 条 总 线 上 。 

习题 

. CPU 执行 指令 时 有 哪 4 个 步骤 ? 

.在 图 4-6 中 ，B 总 线 的 寄存 器 采用 4 位 字段 编码 ， 而 C 总 线 的 寄存 器 则 使 用 了 位 图 。 这 是 
为 什么 ? 

.在 图 4-6 中 ， 有 一 个 “最 高 位 ” 方 框 ， 请 给 出 它 的 电路 图 。 

. 当 微 指令 中 的 JMPC 域 使 能 时 ，MBR 和 NEXT _ ADDRESS 进行 “或 ”操作 ， 以 形成 下 一 条 
微 指 令 的 地 址 。 有 没有 一 种 情况 是 NEXT_ADDRESS 为 0x1FF 而 且 使 用 JMPC ? 

. 假定 在 图 4-14a 的 例子 中 ， 在 让 语 句 后 面 增加 一 条 语句 : 

k=5; 

那么 新 的 汇编 代码 将 是 什么 样子 的 ? 假定 编译 器 具有 优化 功能 。 

请 给 出 下 面 的 Java 语句 的 两 种 UVM 指令 代码 。 


i=k+n+5; 
. 请 给 出 可 产生 下 面 的 IJVM 代码 的 对 应 Java 语句 。 


ILOAD j 
ILOAD n 


N ë = 


A w 


Ur 


a 


N 


IADD 
ISTORE i 


. 在 本 章 中 ， 我 们 曾经 提 到 ， 把 语句 
if (Z) goto L1; else goto L2 


翻译 成 字 节 码 时 ，L2 必须 位 于 控制 存储 器 的 最 后 256 SE, iniii, AAT REE LI 位 
于 0x40 而 L2 位 于 0x140 的 情况 吗 ? 解释 你 的 答案 。 

.在 Mic-1 的 微 程 序 的 让 icmpeq3 中 ，MDR 被 拷贝 到 再 ， 几 行 之 后 再 从 TOS 减 去 来 检查 是 
否 相 等 。 显 然 下 面 这 样 的 语句 更 好 : 338 
if .cmpeq3 Z= TOS - MDR; rd 
为 什么 它 不 能 工作 ? 

10. 在 2.5GHz 的 Mic-1 上 执行 Java 语句 

i=j+k; 
需要 多 长 时 间 ? 答案 用 纳 秒表 示 。 

11. 重复 前 一 个 问题 ， 不 过 现在 是 在 2.5GHz 的 Mic-2 上 执行 。 根 据 你 的 计算 ， 在 Mic-1 需要 

执行 100 秒 的 程序 在 Mic-2 上 需要 多 长 时 间 ? 

12. 写 出 Mic-1 中 实现 JVM POPTWO 指令 的 微 码 。 该 指令 从 栈 顶 弹出 两 个 字 。 


Oo 


oO 
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13, 在 完整 的 Java 虚拟 机 中 ， 有 特殊 的 1 个 字 节 的 指令 把 局 部 变量 0 ~ 3 压 人 栈 ， 而 不 使 用 
通用 的 ILOAD 指令 。 应 该 如 何 修改 IVM 才能 最 好 地 利用 这 些 指令 呢 ? 

14. 指令 ISHR (整数 算术 右 移 ，Arithmetic Shift Right Integer) 只 在 JVM 中 有 ， 而 IJVM 中 没 
有 。 它 使 用 栈 顶 的 两 个 值 作 为 操作 数 ， 并 用 结果 替换 掉 这 两 个 值 。 栈 项 的 第 二 个 字 是 被 移 
位 的 操作 数 。 它 的 值 将 被 右 移 0 ~ 31 位 (包括 0 和 31)， 具 体 的 位 数 来 自 栈 项 字 的 最 左 
面 的 五 位 有 效 位 ( 其 他 27 位 则 被 忽略 )。 移 位 时 ， 右 移 多 少 位 ， 符 号 位 就 被 复制 多 少 位 。 
ISHR 的 操作 码 是 122 ( 0x7A )。 

a. 右 移 两 位 等 价 于 哪 种 算术 运算 ? 

b. 扩展 IVM 的 微 程序 使 之 能 执行 该 指令 。 

. 指令 ISHL ( 整数 左 移 ，Shift Left Integer) HÆ JVM PA, MUVM PRA. CERRI 
的 两 个 值 作 为 操作 数 ， 并 用 结果 替换 掉 这 两 个 值 。 栈 项 的 第 二 个 字 是 被 移 位 的 操作 数 。 它 
的 值 将 被 左 移 0 ~ 31 位 (包括 0 和 31)， 具 体 的 位 数 来 自 栈 顶 字 的 最 左面 的 五 位 有 效 位 
(其 他 27 位 则 被 忽略 )。 左 移 时 最 低位 补 0。ISHL 的 操作 码 是 120 ( 0x78 )。 

a. 左 移 两 位 等 价 于 哪 种 算术 运算 ? 

b. 扩展 IVM 的 微 程 序 使 之 能 执行 该 指令 。 

16. JVM 的 INVOKEVIRTUAL 指令 需要 知道 参数 的 个 数 吗 ? 为 什么 ? 

17. 在 Mic-2 中 实现 JVM DLOAD 指令 。 它 使 用 一 个 字 节 的 索引 ， 并 把 该 位 置 的 局 部 变量 压 
人 栈 。 然 后 再 把 下 一 个 字 ( 按 地 址 增 大 的 方向 计算 ) 也 压 人 栈 。 

18. 设计 网 球 比 赛 计 分 用 的 有 限 状 态 机 。 网 球 规则 如 下 : 要 想 获胜 ， 你 需要 至 少 得 四 分 而 且 必 
须 领 先 对 手 两 分 。 初 始 状态 是 (0, 0) 表示 谁 都 没 得 分 。 然 后 增加 一 个 状态 (1，0 ) 表示 
A 得 了 一 分 。 从 (0, 0) BI (C1, 0) 的 变迁 标记 为 A。 再 增加 一 个 状态 (0, 1) 表示 B 得 
一 分 ， 并 且 把 变迁 标记 为 B。 请 继续 增加 状态 和 变迁 直到 状态 机 包括 所 有 状态 。 

19. 继续 考虑 前 一 个 问题 。 状 态 机 中 有 可 以 去 掉 而 不 影响 任何 比赛 结果 的 状态 吗 ? 如 果 有 ， 它 
们 的 等 价 状态 是 什么 ? 

20. 为 如 下 的 分 支 预测 过 程 设计 有 限 状 态 机 。 它 比 图 4-42 中 的 分 支 预测 过 程 更 顽强 ， 只 有 三 
次 连续 预测 失败 后 才 会 改变 预测 。 

21. 图 4-27 中 的 移 位 寄存 器 最 多 存放 6 个 字 节 。 可 以 使 用 只 有 5 个 字 节 的 移 位 寄存 器 以 使 
IFU 更 便宜 吗 ? 4 个 字 节 呢 ? 

22. 前 一 个 问题 是 使 FU 更 便宜 ， 现 在 我 们 将 使 它 更 昂贵 。 使 用 更 大 的 移 位 寄存 器 ， 比 如 12 
个 字 节 ， 有 好 处 吗 ? 为 什么 ? 

23. 在 Mic-2 的 微 程 序 中 ， 当 Z 设 置 为 1 时 ，if icmpeq6 的 代码 转 到 T。 但 是 , T 的 代码 和 
gotol 一 样 。 那 么 可 以 直接 跳 转 到 gotol 吗 ? 这 样 能 加 快 CPU 的 速度 吗 ? 

24. 在 Mic-4 中 ， 译 码 单元 把 VM 操作 码 映 射 到 ROM 中 ，ROM 中 存放 着 相应 的 微 操 作 的 索 
引 。 省 略 译 码 段 而 直接 把 IJVM 操作 码 送 入 队列 似乎 更 简单 。 它 可 以 使 用 IJVM 操作 码 作 
为 ROM 的 索引 ， 这 和 Mic-1 的 工作 方式 相同 。 该 方案 有 什么 错误 ? 

. 为 什么 计算 机 都 配置 多 层次 的 高 速 缓存 ”直接 用 一 个 更 大 一 些 的 高 速 缓存 不 更 好 吗 ? 

台 计 算 机 使 用 两 级 caches RE 60% 的 内 存 访问 命中 第 一 级 cache，35% 命中 第 二 级 
cache, 5% 人 缺失。 其 访问 时 间 分 别 是 5 纳 秒 、15 纳 秒 和 OO 纳 秒 ， 而 且 第 二 级 cache 和 内 
存 访问 的 起 始 时 间 是 从 它们 确定 会 被 访问 时 开始 (例如 ， 当 第 一 级 cache 缺失 时 才 会 开始 
访问 第 二 级 cache )。 那 么 ,平均 访问 时 间 是 多 少 ? 
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27. 在 4.5.1 节 的 最 后 ， 我 们 曾经 提 到 ， 如 果 有 可 能 向 同一 个 cache 块 执行 多 次 写 操作 ， 写 分 
配 策略 的 性 能 比较 好 ， 那 么 一 次 写 操 作 后 面 有 多 次 读 操 作 的 情况 又 如 何 呢 ? 这 不 也 可 以 极 
大 地 提高 性 能 吗 ? 

28. 在 本 书 的 初稿 中 ， 图 4-39 是 3 路 组 相连 cache 而 不 是 4 路 组 相连 cache。 有 一 个 审 稿 人 发 
了 脾气 ， 他 认为 学 生 会 被 搞 糊 涂 的 ， 因 为 3 并 不 是 2 的 知 而 计算 机 只 能 按照 二 进 制 方式 处 
理 任何 问题 。 由 于 客户 总 是 正确 的 ， 该 图 被 改 成 了 4 路 组 相连 cache。 这 位 审 稿 人 说 的 有 
道理 吗 ?” 讨论 你 的 答案 。 

29. 许多 计算 机 架构 设计 师 花 费 了 很 多 时 间 来 加 深 他 们 设计 的 流水 线 。 为 什么 ? 

30. 某 台 使 用 五 级 流水 线 的 计算 机 这 样 处 理 条 件 转 移 指 令 ， 如 果 命 中 ， 则 等 待 3 个 周期 。 如 果 
20% 的 指令 是 条 件 转移 指令 ， 那 么 这 种 等 待 将 对 性 能 产生 多 大 的 影响 ? 忽略 其 他 的 等 待 原 
因 只 考虑 条 件 转移 指令 。 

31. 假定 某 台 计算 机 可 以 预 取 20 条 指令 。 但 是 平均 说 来 ， 其 中 有 4 条 是 条 件 转移 指令 ， 条 件 
转移 指令 正确 预测 的 概率 是 90%。 那 么 正确 预 取 的 概率 有 多 大 ? 

32. 假定 我 们 改变 图 4-43 中 的 设计 ， 把 8 个 寄存 器 增加 到 16 个 。 然 后 再 修改 16， 使 用 R8 作 
为 目的 寄存 器 。 从 周期 6 开始 的 周期 会 发 生 什 么 ? 

33. 一 般 来 说 ， 相 关 性 对 流水 线 型 的 CPU 有 很 大 影响 。 有 可 以 实际 提高 性 能 的 处 理 WAW + 
关 的 优化 措施 吗 ? 是 什么 ? 

34. 重新 编写 Mic-1 的 解释 器 ， 不 过 现在 LV 指向 第 一 个 局 部 变量 而 不 是 链接 指针 。 

35. 编写 1 路 直接 映射 cache 的 模拟 程序 。 项 的 个 数 和 块 的 大 小 作为 模拟 程序 的 参数 。 用 该 程 
序 做 实验 并 报告 你 的 结果 。 
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本 章 将 详细 讨论 指令 系统 层 (ISA 层 )。 正 如 我 们 在 图 1-2 中 看 到 的 ， 本 层 位 于 微 体 系 结 
构 层 和 操作 系统 层 之 间 。 从 历史 发 展 来 看 ， 本 层 是 在 所 有 其 他 层次 之 前 发 展 起 来 的 ， 实 际 上 ， 
最 早出 现 的 计算 机 只 有 这 一 层 。 直 到 今天 ， 我们 还 经 常 听 到 把 本 层 直接 称 为 计算 机 “体系 结 
构 ” 或 者 ( 也许 并 不 十 分 准确 ) 称 为 “汇编 语言 ”。 

指令 系统 层 是 硬件 和 软件 之 间 的 接口 ， 这 一 特点 使 它 对 于 计算 机 系统 设计 者 来 说 尤为 重 
要 。 尽 管 我 们 可 以 让 硬件 直接 执行 用 C、C++、Java 或 者 其 他 高 级 语言 编写 的 程序 ， 但 这 并 
不 是 一 种 好 办 法 。 因 为 这 样 我 们 将 丧失 编译 执行 相对 于 解释 执行 的 性 能 优势 。 此 外 ， 为 了 便 
于 使 用 ， 大 多 数 计算 机 都 应 该 能 够 执行 多 种 语言 编写 的 程序 ， 而 不 仅仅 是 一 种 。 

所 有 的 系统 设计 者 都 采取 本 质 上 一 样 的 策略 : 把 各 种 不 同 的 高 级 语言 程序 转换 成 一 种 通 
用 的 中 间 形 式 一 一 指令 系统 层 程序 ， 再 设计 能 直接 执行 指令 系统 层 程序 的 硬件 。 指 令 系统 层 
定义 了 硬件 和 编译 器 之 间 的 接口 。 它 是 一 种 硬件 和 编译 器 都 能 理解 的 语言 。 编 译 器 、 指 令 系 
统 层 和 硬件 之 间 的 关系 如 图 5-1 所 示 。 








FORTRAN 程 序 










FORTRAN 程序 编译 为 


指令 系统 层 程序 C 程 序 编译 为 


指令 系统 层 程序 


通过 微 程序 或 硬件 执行 
指令 系统 层 程序 





图 5-1 ISA 层 是 编译 器 和 硬件 之 间 的 接口 


在 理想 情况 下 ， 设 计 一 种 新 型 计算 机 时 ， 设 计 师 应 该 分 别 与 编译 器 设计 者 和 硬件 工程 师 
进行 交流 ， 确 定 他 们 各 自 需要 指令 系统 层 实现 的 特性 。 如 果 硬 件 工 程 师 不 能 高 效率 地 实现 编 
译 器 设计 者 想 要 的 一 些 特性 ， 那 么 这 些 特性 就 是 不 可 接受 的 (比如 branch-and-do-payroll 指 
令 )。 同 样 ， 如 果 硬 件 设 计 者 提出 一 些 非 常 好 的 新 特性 ( 例如 ， 设 计 一 种 访问 质数 地 址 时 速度 
非常 快 的 内 存 )， 而 软件 设计 人 员 不 能 编写 出 使 用 这 种 特性 的 代码 ， 这 种 设计 也 将 永远 是 纸 上 
谈 兵 。 在 经 过 大 量 的 协商 和 模拟 工作 之 后 ， 设 计 师 将 设计 出 针对 将 要 实现 的 编程 语言 优化 的 
指令 系统 层 ， 然 后 实现 它 。 

然而 这 只 是 理想 情况 。 我 们 必须 面 对 严 酷 的 现实 。 当 一 种 新 型 计算 机 出 现 的 时 候 ， 所 有 
潜在 的 购买 者 要 问 的 第 一 个 问题 是 :“ 它 和 以 前 的 型 号 兼容 吗 ? ”第 二 个 问题 是 :“ 我 能 够 在 
它 上 面 运行 我 现 有 的 操作 系统 吗 ? ”第 三 个 问题 是 :“ 它 能 够 不 加 修改 地 运行 我 现 有 的 应 用 程 
序 吗 ? ”如 果 这 些 问 题 中 的 任何 一 个 的 答案 是 “不 能 "， 那 么 设计 者 就 需要 做 大 量 的 解释 工 
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作 。 因 为 计算 机 的 购买 者 很 少 愿意 扔 掉 他 们 的 所 有 旧 软 件 而 重新 购买 新 的 。 

购买 者 们 的 这 种 心态 给 计算 机 设计 者 带 来 了 巨大 的 压力 ， 他 们 必须 努力 保持 各 个 型 号 的 
计算 机 之 间 的 指令 系统 层 相 同 ， 或 者 至 少 使 它 向 后 兼容 (backward compatible )。 做 到 了 这 一 
点 ， 就 可 以 保证 新 的 计算 机 能 够 不 加 修改 地 运行 原 有 的 程序 。 当 然 ， 新 型 计算 机 有 新 的 指令 
而 且 这 些 指 令 只 由 新 的 软件 使 用 也 是 完全 可 以 接受 的 。 按 照 图 5-1， 只 要 设计 者 使 指令 系统 层 
和 以 前 的 型 号 向 后 兼容 ， 他 们 就 有 很 大 的 自由 去 做 想 用 硬件 实现 的 任何 事情 。 没 有 人 关心 实 
际 的 硬件 〈 或 者 想 知 道 硬件 在 做 什么 )。 设 计 者 可 以 把 微 指 令 设 计 变 成 组 合 逻 辑 设 计 ， 增 加 流 
水 线 或 者 超标 量 部 件 或 者 任何 其 他 部 件 ， 只 要 他 们 能 保证 指令 系统 层 向 后 兼容 。 唯 一 的 目标 
是 使 原 有 的 程序 在 新 的 计算 机 上 运行 。 现 在 ， 设 计 者 面临 的 挑战 就 变 成 了 : 如 何在 保证 向 后 
兼容 的 限制 条 件 下 设计 出 更 好 的 计算 机 。 

在 上 面 的 讨论 中 我 们 并 没有 说 指令 系统 层 设计 没有 任何 难度 。 一 个 设计 得 好 的 指令 系统 
层 会 明显 优 于 一 个 设计 得 不 好 的 指令 系统 层 ， 尤其 是 在 给 定 成 本 下 实现 的 原始 计算 能 力 方面 。 
对 于 其 他 方面 都 相同 的 设计 来 说 ， 不 同 的 指令 系统 层 可 能 具有 25% 的 性 能 差别 。 我 们 的 看 法 
是 市 场 的 压力 使 我 们 彻底 抛弃 原 有 的 指令 系统 层 而 引入 新 的 指令 系统 层 变 得 非常 困难 ( 当然 
也 不 是 不 可 能 )， 虽 然 偶尔 也 会 出 现 一 种 全 新 的 指令 系统 层 ， 事 实 上 在 具有 特殊 需求 的 市 场 
(比如 ， 藤 人 式 系 统 或 者 多 媒体 处 理 器 )， 这 种 情况 已 经 出 现 得 越 来 越 频 繁 了 。 因 此 ， 理 解 指 
令 系 统 层 的 设计 是 相当 重要 的 。 

怎样 才能 设计 出 一 个 好 的 指令 系统 层 呢 ? 有 两 个 主要 因素 。 首 先 ， 一 个 好 的 指令 系统 层 
应 该 定义 一 套 在 当前 和 将 来 的 技术 条 件 下 能 够 高 效率 实现 的 指令 集 。 这 样 可 以 使 我 们 的 高 效 
率 的 设计 用 于 今后 的 若干 代 计 算 机 中 。 设 计 得 不 好 的 指令 系统 层 实 现 起 来 将 比较 困难 ， 而 且 
可 能 需要 更 多 的 逻辑 门 来 实现 处 理 器 和 更 多 的 内 存 来 执行 程序 。 因 为 减少 了 重 堆 操作 的 机 会 ， 
它 还 可 能 运行 起 来 比较 慢 ， 这 样 就 需要 进行 更 复杂 的 设计 来 获得 与 一 个 设计 得 好 的 指令 系统 
相同 的 性 能 。 如 果 一 个 指令 系统 层 使 用 某 种 极为 特殊 的 技术 来 实现 高 效率 的 设计 ， 一 般 来 说 ， 
它 也 只 能 用 在 某 一 代 计 算 机 中 ， 县 花 一 现 ， 不 久 就 会 被 更 加 有 预见 性 的 设计 所 取代 。 

其 次 ， 一 个 好 的 指令 系统 层 应 该 为 编译 器 提供 明确 的 编译 目标 。 编 译 结果 的 规律 性 和 完 
整 性 是 指令 系统 层 重要 的 特性 。 然 而 ， 并 不 是 每 一 个 指令 系统 层 都 做 到 了 这 一 点 。 这 些 属 性 
对 于 编译 器 来 说 是 重要 的 ， 编 译 器 在 有 限 的 选择 中 选择 最 佳 方案 时 经 常会 遇 到 困难 ， 尤 其 是 
当 某 些 显而易见 的 选择 被 指令 系统 层 禁 止 的 时 候 。 简 而 言 之 ， 由 于 指令 系统 层 是 硬件 和 软件 
之 间 的 接口 ， 所 以 它 应 该 使 硬件 设计 者 和 软件 设计 者 都 满意 ， 对 硬件 设计 者 来 说 ， 它 可 以 被 
很 容易 高 效率 地 实现 ， 对 软件 设计 者 来 说 ， 可 以 很 容易 地 为 它 生成 代码 。 


5.1 指令 系统 层 概 述 


让 我 们 从 下 面 的 问题 开始 我 们 的 研究 : 指令 系统 层 是 什么 ? 这 似乎 是 一 个 简单 的 问题 ， 
但 是 它 实际 上 比 你 想象 得 要 复杂 。 下面， 我 们 将 首先 指出 涉及 它 的 复杂 性 的 各 个 因素 ， 然 后 
再 了 解 一 下 存储 模式 、 寄 存 器 和 指令 集 。 


5.1.1 指令 系统 层 的 性 质 


大 体 上 说 ， 指 令 系 统 层 是 机 器 语言 程序 员 眼 中 所 看 到 的 计算 机 。 由 于 人 们 现在 已 经 不 再 
使 用 机 器 语言 编程 了 ， 我 们 只 好 重新 定义 指令 系统 层 。 我 们 把 编译 器 的 输出 定义 为 指令 系统 
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B45] E (在 这 里 暂时 忽略 操作 系统 调用 和 符号 汇编 语言 )。 为 了 能 够 生成 指令 系统 层 代码 ， 编 译 器 


的 设计 者 必须 了 解 计算 机 的 存储 模式 、 寄 存 器 组 织 、 合 法 的 数据 类 型 和 指令 等 信息 。 所 有 这 
些 都 是 由 指令 系统 层 定 义 的 。 

按照 这 个 定义 ， 所 有 编译 器 设计 者 不 可 见 的 特性 都 不 属于 指令 系统 层 ， 比 如 说 ， 微 体系 
结构 层 采 用 微 程 序 方式 还 是 采用 组 合 逻 辑 方式 ， 是 否 采 用 流水 线 技术 ， 是 否 采 用 超标 量 结构 
等 都 不 属于 指令 系统 层 。 当 然 ， 这 个 说 法 也 不 是 百分之百 正确 ， 在 某 些 情况 下 ， 如 果 这 些 特 
性 确实 影响 到 性 能 ， 那 么 这 时 它 对 于 编译 器 编写 者 来 说 就 是 可 见 的 。 我 们 可 以 看 下 面 的 例子 ， 
一 个 超标 量 的 设计 可 以 在 一 个 周期 内 发 射 两 条 连续 指令 ， 一 条 是 整数 指令 ， 一 条 是 浮 点 数 指 
令 。 在 这 种 情况 下 ， 如 果 编 译 器 能 够 交替 地 生成 整数 指令 和 浮 点 数 指令 ， 那 么 性 能 将 会 明显 
地 提高 。 这 时 ， 超 标量 操作 的 细节 对 指令 系统 层 来 说 就 是 可 见 的 。 从 这 个 例子 可 以 看 出 ， 指 
令 系统 层 和 微 体系 结构 层 之 间 的 区 别 并 不 像 我 们 前 面 描述 得 那么 清晰 。 

某 些 体 系 结构 的 指令 系统 层 是 由 正式 的 文档 定义 的 (这 种 文档 通常 是 由 某 工业 协会 制 
€) 有 一 些 则 不 是 。 例 如 ,ARM v7 (第 7 版 ARM 指令 系统 ) 就 拥有 一 个 由 ARM 公司 官方 
发 布 的 正式 定义 。 这 种 定义 的 目的 是 使 不 同 厂家 生产 的 计算 机 能 够 运行 相同 的 软件 而 且 能 够 
得 到 相同 的 结果 。 

在 ARM 指令 系统 的 例子 中 ， 制 定 标准 的 目的 是 允许 多 个 芯片 制造 商 生 产 ARM 芯片 ， 这 
些 芯片 在 功能 上 是 完全 一 致 的 ， 只 有 性 能 与 价格 上 的 差别 。 为 了 达到 这 一 目的 ， 芯 片 制造 商 
必须 知道 ARM 芯片 在 指令 系统 层 能 够 做 什么 。 为 此 ， 标 准 文档 详细 描述 了 ARM 的 存储 模 
式 、 寄 存 器 组 织 、 指 令 功 能 等 。 但 是 文档 中 并 不 包括 微 体 系 结构 层 。 

这 样 的 标准 文档 包括 必须 实现 的 标准 (normative ) 部 分 和 帮助 读者 理解 标准 的 信息 
(informative ) 部 分 。 在 标准 部 分 中 通常 使 用 必须 、 不 允许 、 应 该 这 样 的 词 来 分 别 表示 体系 结 
构 中 的 强制 需求 、 禁 止 和 建议 部 分 。 例 如 下 面 的 句子: 

执行 一 个 保留 的 操作 码 必 须 产 生 一 个 陷阱 。 

这 人 句 话 的 意思 是 如 果 程 序 执行 了 一 个 系统 保留 的 操作 码 ， 系 统 必须 产生 一 个 陷阱 而 不 是 
忽略 它 。 而 另 一 种 做 法 可 能 不 规定 具体 的 操作 ， 比 如 我 们 可 能 会 读 到 这 样 的 句子 : 

执行 一 个 保留 的 操作 码 后 的 处 理由 具体 实现 定义 。 

它 的 意思 是 编译 器 的 编写 者 不 能 指望 指令 系统 层 提 供 任何 特性 ， 因 而 给 了 实现 者 选择 不 
同方 案 的 自由 。 大 多 数 的 体系 结构 标准 都 附带 测试 集 用 来 测试 那些 宣称 自己 符合 标准 的 实现 
是 否 真 的 与 标准 一 致 。 

显然 ， 有 一 个 文档 来 规定 ARM v7 的 指令 系统 层 是 为 了 使 所 有 的 ARM v7 芯片 都 能 够 运 
行 相同 的 软件 。 很 多 年 来 ，IA-32 指令 系统 ( 有 时 候 称 为 x86 指令 系统 ) 都 没有 正式 的 定义 文 
档 ， 这 是 因为 mtel 公司 不 希望 其 他 世 片 供应 商 能 够 容易 地 生产 出 与 Intel 相 兼 容 的 芯片 。 实 
际 上 ， 为 了 阻止 别 的 厂家 仿造 它 的 芯片 ，Intel 公司 已 经 告 到 了 法 院 ， 但 是 最 后 Intel 还 是 输 掉 
了 官司 。20 世纪 90 FRK, Intel 终于 发 布 了 IA-32 指令 系统 的 完全 说 明 。 这 也 许 是 因为 他 
们 意识 到 了 原来 做 法 的 错误 ， 并 且 想 要 帮助 同行 业 的 架构 师 和 程序 员 们 ; 或 者 只 是 因为 美国 、 
日 本 、 欧 盟 都 在 调查 Inte 是 否 触犯 了 反 垄 断 法 。 这 个 优秀 的 指令 系统 参考 到 目前 为 止 依然 
在 Intel 的 开发 者 网 站 ( http://developer.intel.com ) 上 更 新 。 其 随 Core i7 一 起 发 布 的 版 本 多 达 
4161 页 ， 这 也 再 次 提醒 了 我 们 Core i7 是 一 个 复杂 的 指令 集 计算 机 。 

指令 系统 层 的 男 一 个 重要 特性 是 它 具 有 两 个 模式 一 一 内 核 模式 (kernel mode) AAAH 
IÈ (user mode )， 这 一 特性 在 大 多 数 CPU 中 都 有 。 内 核 模式 用 于 运行 操作 系统 ， 在 内 核 模 式 
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下 可 以 运行 所 有 的 指令 。 用 户 模式 用 于 运行 用 户 的 应 用 程序 ， 在 用 户 模式 下 ， 不 允许 运行 某 
些 特殊 的 敏感 指令 ( 例如 ， 直 接管 理 cache 的 指令 ) 本 章 我 们 将 主要 讨论 用 户 模式 指令 和 
特性 。 

5.1.2 ”存储 模式 


所 有 的 计算 机 都 把 内 存 分 成 具有 连续 地 址 的 单元 。 目 前 最 常见 的 是 8 位 长 度 的 单元 ， 而 
在 过 去 ， 人 们 曾经 使 用 过 的 单元 长 度 1 ~ 60 位 不 等 ( 见 图 2-10 )。 一 个 8 位 的 单元 称 为 一 个 
字 节 (byte )。 之 所 以 使 用 8 位 单元 是 由 于 ASCI 字符 是 7 位 的 ， 一 个 ASCII 字符 加 上 一 个 奇 
偶 校 验 位 就 组 成 了 一 个 字 节 。 其 他 的 字符 编码 ， 如 Unicode 和 UTF-8， 则 使 用 8 的 倍数 的 位 
数 来 表示 一 个 字符 。 

字 节 通常 按照 4 个 一 组 (32 位 ) 或 8 个 一 组 〈(64 位 ) 组 成 字 ， 这 样 指令 就 可 以 按照 字 对 
内 存 进 行 管 理 。 许 多 体系 结构 要 求 字 按照 它们 的 自然 边界 对 齐 。 比 如 ， 一 个 4 字 节 的 字 应 该 
从 地 址 0、4、8 开始 ， 而 不 能 从 1 或 者 2 开始。 类似 地 ， 一 个 8 字 节 的 字 应 该 从 地 址 0、8 或 
者 16 开始 ， 而 不 是 地 址 4 或 6。 图 5-2 表示 一 个 8 字 节 的 字 是 如 何 对 齐 的 。 








位 于 地 址 8 的 位 于 地 址 12 的 
对 齐 的 8 字 节 长 的 字 未 对 齐 的 8 字 节 长 的 字 
a) 对 齐 的 b) 未 对 齐 的 


图 5-2 小 端 派 内 存 中 8 字 节 的 字 某 些 计 算 机 要 求 内 存 中 的 字 是 对 齐 的 


由 于 对 齐 可 以 使 内 存 操 作 更 加 有 效 ， 因 而 通常 必须 进行 对 齐 。 以 Core i7 为 例 ， 它 一 次 可 
以 从 使 用 DDR 3 接口 的 内 存 中 取出 8 个 字 节 ， 而 该 内 存 只 支持 64 位 对 齐 的 访问 。 因 此 ， 即 
使 Core i7 想 要 ， 它 也 无 法 进行 不 对 齐 的 内 存 访问 ， 因 为 内 存 接 口 要 求 地 址 都 是 8 的 倍数 。 

然而 ， 这 种 对 齐 有 些 时 候 也 会 产生 问题 。 在 Core i7 中 ,为 了 与 8088 向 后 兼容 (8088 只 
有 8 位 宽 的 数据 总 线 ， 因 而 也 不 需要 按照 8 个 字 节 的 边界 对 内 存 进 行 对 齐 )， 指 令 系统 层 的 程 
序 必 须 能 够 从 任何 地 址 开始 进行 内 存 操作 。 如 果 一 个 Core i7 的 程序 需要 从 地 址 7 开始 读 一 个 
4 字 节 的 字 ， 内 存 硬件 将 首先 进行 一 次 读 取 操作 获得 0 ~ 7 的 8 个 字 节 ， 再 进行 一 次 读 取 操 
作 获 得 8 ~ 15 的 8 个 字 节 。 然 后 CPU 从 这 16 个 字 节 中 取出 需要 的 4 个 字 节 再 按照 正确 的 次 
序 把 它们 组 成 一 个 4 字 节 的 字 。 

使 指令 系统 层 具 有 从 任意 地 址 读 取 内 存 字 的 能 力 需要 在 芯片 中 实现 额外 的 逻辑 ， 这 会 
使 芯片 更 大 而 且 更 昂贵 。 设 计 工 程 师 们 更 倾向 于 去 掉 这 一 特性 而 转向 要 求 所 有 的 程序 都 采 
用 字 对 齐 的 方式 读 取 内 存 。 然 而 问题 在 于 : 无 论 什么 时 候 ， 只 要 工程 师 们 问 :“ 谁 还 在 继续 
使 用 会 破坏 这 一 模式 的 发 霉 的 8088 程序 呢 ? ”销售 人 员 总 会 给 他 们 一 个 简短 的 回答 :“ 我 
们 的 顾客 。” 

大 多 数 计算 机 的 指令 系统 层 具 有 单一 的 线性 地 址 空间 ， 从 地 址 0 到 某 一 个 最 大 值 ， 通常 
是 2”-1 字 节 或 者 2%-1 字 节 。 然 而 ， 有 一 些 计算 机 同时 具有 相互 分 离 的 指令 地 址 空间 和 数据 
地 址 空间 ， 在 这 种 计算 机 中 ， 从 地 址 8 取 指 令 和 从 地 址 8 取 数 据 使 用 的 是 两 个 不 同 的 地 址 空 
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间 。 这 种 策略 比 单一 地 址 空间 策略 要 复杂 一 些 ， 但 它 有 两 个 好 处 。 首 先 ， 它 可 以 使 我 们 仅仅 
采用 32 位 地 址 就 可 以 同时 获得 2” 字 节 的 程序 空间 和 2”? 字 节 的 数据 空间 。 其 次 ， 由 于 所 有 
的 写 操作 都 自动 地 在 数据 空间 执行 ， 这 样 程序 就 不 会 被 意外 履 写 ， 因 而 减少 了 程序 出 错 的 可 
能 。 独 立 的 指令 和 数据 空间 还 可 以 使 得 恶意 软件 的 攻击 变 得 更 加 困难 。 因 为 恶意 软件 根本 不 
能 自 改 程序 一 一 其 至 连 定位 程序 都 不 能 。 

必须 注意 的 是 ， 指 令 和 数据 具有 不 同 的 地 址 空间 与 指令 和 数据 具有 相 分 离 的 第 一 级 高 速 
缓存 是 不 同 的 。 在 前 一 种 情况 下 ， 地 址 空间 的 容量 是 加 售 的 ， 而 且 在 读 取 指定 地 址 时 根据 读 
的 是 指令 字 还 是 数据 字 会 产生 不 同 的 结果 。 而 在 分 离 式 高 速 缓存 中 ， 仍 然 只 有 一 个 地 址 空间 ， 
只 是 不 同 的 高 速 缓存 存储 不 同 的 部 分 (指令 缓存 存储 指令 ， 数 据 缓存 存储 数据 )。 

指令 系统 层 存储 模式 的 另 一 个 方面 是 内 存 的 语义 。 我 们 很 自然 地 希望 在 对 一 个 地 址 进行 
T STORE 操作 之 后 执行 LOAD 指令 将 得 到 刚刚 存储 的 值 。 然 而 ， 正 如 第 4 章 所 介绍 的 ， 在 
许多 设计 中 ， 微 指令 是 会 被 重新 排序 的 。 这 样 就 带 来 了 内 存 不 能 提供 我 们 预期 特性 的 风险 。 
在 多 处 理 机 系统 中 问题 会 变 得 更 加 严重 ， 因 为 每 个 CPU 都 会 发 出 一 连 串 的 〈 可 能 已 经 被 重新 
排序 ) 读 、 写 共享 内 存 的 指令 。 

系统 设计 人 员 可 以 采用 一 些 方法 来 解决 这 一 问题 。 在 最 极端 的 情况 下 ， 所 有 的 内 存 请 求 
都 被 串 行 执行 ， 一 个 操作 完成 以 后 再 执行 下 一 个 操作 。 这 种 策略 性 能 不 高 但 是 给 出 了 最 简单 
的 内 存 语义 (所 有 的 操作 都 严格 按照 程序 中 原 有 的 次 序 执行 )。 

另 一 种 极端 情况 是 内 存 不 保证 操作 次 序 。 在 这 种 情况 下 ， 为 了 使 内 存 有 序 ， 程 序 必须 执 
行 一 条 SYNC 指令 ， 它 阻塞 所 有 的 新 的 内 存 操作 ， 直 到 原 有 的 操作 全 部 完成 。 这 种 设计 给 编 
译 器 的 设计 人 员 带 来 了 很 大 的 负担 ， 他 们 必须 了 解 微 体系 结构 层 工作 的 细节 ， 但 是 它 同时 也 
给 硬件 设计 人 员 提 供 了 最 大 的 自由 空间 来 优化 内 存 性 能 。 

也 可 以 使 用 介 于 两 者 之 间 的 内 存 模式 ， 在 这 种 模式 中 ， 硬 件 自动 地 阻塞 特定 的 内 存 操作 
(例如 ， 那 些 具 有 RAW 和 WAR 依赖 关系 的 操作 )。 尽 管 把 所 有 这 些微 体系 结构 层 导 致 的 特性 
暴露 在 指令 系统 层 是 令 人 烦恼 的 (至少 对 于 编译 器 设计 人 员 和 汇编 语言 程序 员 来 说 是 这 样 )， 
但 这 种 方案 仍然 很 流行 。 正 是 微 指令 重新 排序 、 深 度 流 水 线 和 多 级 数据 缓存 这 类 的 底层 实现 
导致 了 这 种 模式 的 流行 。 在 本 章 的 后 面 ， 我 们 将 看 到 更 多 类 似 的 例子 。 


5.1.3 ”寄存 器 


所 有 的 计算 机 在 指令 系统 层 都 有 可 以 访问 的 寄存 器 。 它 们 的 作用 是 控制 程序 执行 ,保存 
中 间 结 果 ， 以 及 用 于 一 些 其 他 目的 。 一 般 来 说 ， 在 微 体 系 结构 层 可 见 的 寄存 器 在 指令 系统 层 
不 可 见 ， 比 如 图 4-1 中 的 TOS 和 MAR。 但 是 诸如 程序 计数 器 和 栈 指针 这 样 的 寄存 器 在 微 体 
系 结构 层 和 指令 系统 层 都 是 可 见 的 。 另 一 方面 ， 在 指令 系统 层 可 见 的 寄存 器 在 微 体 系 结构 层 
一 定 是 可 见 的 ， 因 为 它们 正 是 由 微 体 系 结构 层 实现 的 。 

指令 系统 层 的 寄存 器 可 以 很 粗略 地 分 成 两 类 : 专用 寄存 器 和 通用 寄存 器 。 专 用 寄存 器 包 
括 程 序 计数 器 、 栈 指针 和 其 他 一 些 有 专门 用 途 的 寄存 器 。 而 通用 寄存 器 用 于 保存 重要 的 局 部 
变量 和 中 间 计 算 结果 。 它 们 的 主要 用 途 是 用 来 快速 访问 那些 使 用 频繁 的 数据 ( 主要 是 为 了 避 
免 内 存 访问 )。 具 有 快速 CPU 和 相对 较 慢 的 内 存 的 RISC 计算 机 一 般 都 至 少 有 32 个 通用 寄存 
器 ， 而 且 在 新 的 CPU 中 数量 还 会 更 多 。 

在 一 些 计 算 机 中 ， 通 用 寄存 器 是 完全 对 称 的 ， 可 以 互 换 使 用 。 如 果 寄 存 器 之 间 是 完全 等 
价 的 ， 那 么 编译 器 就 可 以 使 用 RI1 或 者 R25 来 保存 临时 结果 ， 使 用 哪个 寄存 器 是 无 关 紧 要 的 。 





EEA 251 


然而 ， 在 另外 一 些 计 算 机 中 ， 某 些 通用 寄存 器 也 可 能 具有 一 定 的 特殊 性 。 例 如 ， 在 
Core i7 中 有 一 个 称 为 EDX 的 通用 寄存 器 ， 它 同时 也 用 来 接收 乘法 操作 的 半 个 乘积 和 除法 操 
作 的 半 个 被 除数 。 

虽然 通用 寄存 器 是 完全 可 互 换 的 ， 但 一 般 来 说 操作 系统 和 编译 器 也 会 达成 寄存 器 的 使 用 
约定 。 比 如 ， 某 些 寄 存 器 可 能 用 于 保存 过 程 调用 的 参数 而 另 一 些 可 能 被 用 作 临 时 寄存 器 。 如 果 
编译 器 把 一 个 重要 的 局 部 变量 放 在 R 中 然后 去 调用 一 个 库 函 数 。 库 函数 可 能 认为 RI 是 一 个 
临时 寄存 器 ， 这 样 当 库 函 数 返回 时 ，R1 中 可 能 是 一 些 无 用 的 垃圾 。 如 果 在 系统 范围 内 有 如 何 
使 用 寄存 器 的 约定 ， 我 们 就 可 以 建议 编译 器 和 汇编 语言 程序 员 遵 守 这 些 约 定 ， 以 免 出 现 问 题 。 

指令 系统 层 除 了 有 用 户 程序 可 见 的 寄存 器 之 外 ， 还 有 相当 数量 的 只 在 内 核 模 式 下 可 用 的 
专用 寄存 器 。 这 些 寄 存 器 用 于 控制 高 速 缓存 、 内 存 、 输 入 /输出 设备 和 其 他 的 计算 机 硬件 。 
它们 只 能 被 操作 系统 使 用 ， 因 此 编译 器 和 用 户 不 需要 关心 它们 。 

标志 寄存 器 (或 者 称 为 程序 状态 字 一 一 PSW ，Program Status Word) 是 一 个 可 以 同时 在 内 
核 状 态 和 用 户 状态 下 使 用 的 控制 寄存 器 。 该 寄存 器 保存 CPU 需要 的 各 种 不 同 的 状态 位 。 其 中 
最 重要 的 是 条 件 码 。 条 件 码 的 各 位 在 每 个 运算 器 周期 都 要 被 置 位 ， 它 反映 了 最 近 一 次 运算 操 
作 结 果 的 状态 。 典 型 的 条 件 码 包括 : 

N 一 一 当 结 果 是 负数 时 设置 。 

Z 一 一 当 结果 为 0 时 设置 。 

V 一 一 当 结果 产生 溢出 时 设置 。 

C 一 一 当 结 果 产 生 了 最 高 位 进位 时 设置 。 

A 一 一 当 结果 在 第 3 位 产生 进位 ( 辅助 进位 ) 时 设置 。 

P 一 一 当 结果 具有 偶 校 验 时 设置 。 

条 件 码 之 所 以 重要 是 因为 比较 和 条 件 分 支 指令 〈 比如 条 件 转移 指令 ) 经 常 要 使 用 它们 。 
举例 来 说 ,一 条 CMP 指令 将 两 个 操作 数 相 减 然后 根据 它们 的 差 来 设置 条 件 码 。 如 果 两 个 操作 
数 相等 ， 它 们 的 差 将 是 0， 因 此 程序 状态 字 PSW 中 的 Z 条 件 位 将 被 置 位 。 紧 接着 的 一 条 BEQ 
( 相等 转移 指令 ) 将 测试 Z 位 的 值 ， 根 据 它 是 否 被 置 位 来 决定 程序 执行 的 分 支 。 

除了 条 件 码 之 外 ， 程 序 状 态 字 还 包括 其 他 一 些 字段 。 程 序 状 态 字 的 整个 内 容 是 依 计算 机 
而 异 的 。 一 些 典 型 的 字段 包括 运行 模式 ( 比如 ， 是 在 用 户 态 下 运行 还 是 在 内 核 态 下 运行 )、 跟 
踪 位 (用 于 调试 )、CPU 的 优先 级 和 中 断 允 许 状态 。 通 常 程序 状态 字 在 用 户 模式 下 可 读 ， 而 其 
中 的 一 些 域 只 有 在 内 核 模 式 下 才能 写 ( 比如 运行 模式 位 )。 


5.1.4 指令 


间 令 系统 层 主 要 的 特征 是 机 器 指令 集 。 正 是 这 些 指令 在 控制 计算 机 和 运行。 指令 集中 总 
存在 LOAD 指令 和 STORE 指令 (不 一 定 是 这 种 形式 )， 它 们 在 内 存 和 寄存 器 之 间 移 动 数据 。 
MOVE 指令 用 于 在 寄存 器 之 间 拷 贝 数 据 。 算 术 指令 总 是 存在 ， 还 有 逻辑 指令 和 比较 数据 并 根 
据 结果 进行 分 支 的 指令 。 在 图 4-11 中 我 们 已 经 看 到 了 一 些 典 型 的 指令 系统 层 指 令 。 本 章 我 们 
还 将 研究 更 多 的 指令 。 


5.1.5 Core i7 指令 系统 层 概述 


本 章 我 们 将 讨论 三 个 差异 较 大 的 指令 系统 层 : Core i7 中 使 用 的 Intel IA-32 体系 结构 ， 
OMAP4430 片上 系统 中 实现 的 ARM v7 体系 结构 和 ATmegal 68 微 处 理 器 中 使 用 的 AVR 8 位 


252 BSF 


体系 结构 。 我 们 的 目的 并 不 是 详细 地 描述 这 些 指令 系统 层 ， 而 是 要 说 明 指 令 系统 层 的 重要 方 
面 ， 展 示 不 同 指令 系统 层 之 间 的 差别 有 多 大 。 下 面 首先 来 看 一 下 Core i7。 

Core i7 处 理 器 已 经 经 过 了 许多 代 的 发 展 ， 正 如 我 们 在 第 1 章 中 介绍 的 那样 ， 沿 着 
Core i7 的 发 展 历程 我 们 可 以 追溯 到 最 古老 的 微 处 理 器 。 首 先 ， 基 本 的 指令 系统 层 必 须 完 
全 支持 为 8086 和 8088 处 理 器 ( 它们 具有 相同 的 指令 系统 层 ) 开发 的 程序 ， 甚 至 还 包括 对 
8080 (一 种 在 20 世纪 70 年 代 很 流行 的 8 位 处 理 器 ) 的 支持 。 按 照发 展 过 程 ，8080 在 兼容 
性 方面 已 经 受到 了 更 早 的 8008 的 影响 ， 而 8008 又 是 基于 4004 处 理 器 的 (一 种 丽 龙 时 代 使 
用 的 4 位 芯片 器 )。 

从 软件 的 角度 来 看 ，8086 和 8088 是 16 位 的 处 理 器 (尽管 8088 只 有 8 位 的 数据 总 线 )。 
它们 的 后 继 型 号 80286 也 是 一 种 16 位 处 理 器 。 它 的 主要 优点 是 具有 更 大 的 地 址 空间 ， 因 为 它 
包括 16 384 个 64KB 的 存储 段 而 不 是 一 个 线性 的 2° 的 字 节 内 存 ， 尽 管 很 少 有 程序 会 使 用 这 
么 大 的 地 址 空间 。 

80386 是 Intel 家 族 中 的 第 一 种 32 位 处 理 器 。 所 有 的 后 继 型 号 (80486, Pentium, 
Pentium Pro, Pentium II, Pentium Il, Pentium 4, Celeron, Xeon, Pentium M, Centrino, 
Core 2 duo 和 Core i7 等 ) 都 具有 和 80386 基本 类 似 的 32 位 体系 结构 ， 我 们 称 为 IA-32。 因 此 
我 们 将 重点 讨论 这 种 体系 结构 。80386 以 来 的 体系 结构 的 主要 变化 就 是 在 x86 系列 的 后 期 版 
本 中 引入 了 MMX, SSE 和 SSE2 指令 。 这 些 指令 是 高 度 专用 的 ， 它 们 设计 的 目的 就 是 提高 多 
媒体 应 用 的 性 能 。 其 他 重要 的 扩展 还 有 64 位 的 x86 ( 常 称 为 x86-64 )， 它 将 整数 计算 以 及 实 
地 址 空间 增加 到 了 64 位 。 大 多 数 对 80386 的 扩展 都 是 由 Intel 提出 随后 才 被 其 竞争 对 手 所 实 
现 ， 然 而 x86-64 则 是 由 AMD 提出 ， 而 后 被 Intel 采纳 的 一 个 例子 。 

Core i7 具有 三 种 操作 模式 ， 其 中 的 两 种 使 它 工 作 起 来 像 8088。 在 实 模式 下 ， 所 有 8088 
之 后 增加 的 新 特性 都 被 关闭 ， 这 时 Core i7 就 像 一 台 简 单 的 8088 一 样 运行 。 如 果 任 何 一 个 
程序 出 错 ， 整 台 计 算 机 就 会 月 演 。 如 果 Intel 也 设计 “人 ”， 这 种 模式 就 好 比 设置 了 某 一 位 使 
Intel 制造 的 “人 ” 回 到 猩猩 模式 (大脑 大 部 分 丧失 能 力 ， 不 能 说 话 ， 睡 在 树 上 ， 吃 的 主要 是 
GES ). 

稍微 先进 一 点 的 模式 是 虚拟 8086 模式 (virtual 8086 mode )， 在 这 种 模式 下 我 们 可 以 用 
一 种 受 保护 的 方式 来 运行 旧 的 8088 程序 。 这 时 ， 有 一 个 实际 的 操作 系统 在 控制 整个 计算 机 。 
为 了 运行 旧 的 8088 程序 ， 操 作 系统 会 创建 一 个 特殊 的 独立 的 8088 环境 ， 与 实际 的 8088 不 同 
的 是 当 程序 崩 演 时， 计算 机 不 会 崩溃 而 只 是 通知 操作 系统 。 当 一 个 Windows 的 用 户 启 动 一 个 
MS-DOS 窗口 时 ， 这 个 MS-DOS 程序 就 是 用 虚拟 8086 模式 启动 的 ， 这 样 就 可 以 保证 当 MS- 
DOS 程序 发 生 错误 时 Windows 系统 本 身 不 受 影响 。 

最 后 一 种 模式 是 保护 模式 ， 在 这 种 模式 下 ，Core i7 才 真 的 是 一 台 Core i7 而 不 只 是 一 台 
昂贵 的 8088。 在 这 种 模式 下 有 四 种 可 用 的 特权 级 别 ， 它 们 由 程序 状态 字 中 的 对 应 位 控制 。 第 
0 级 相当 于 别 的 计算 机 中 的 内 核 模 式 ， 它 可 以 完全 控制 计算 机 ， 因 而 只 由 操作 系统 使 用 。 级 
别 3 用 于 运行 用 户 程序 ， 它 阻塞 用 户 程序 对 某 些 特殊 的 关键 指令 和 控制 寄存 器 的 访问 ， 以 防 
止 某 些 亚 意 的 用 户 程序 搞 垮 整个 计算 机 。 级 别 1 和 级 别 2 很 少 使 用 。 

Core i7 具有 很 大 的 地 址 空间 ， 它 的 内 存 分 为 16 384 个 段 ， 每 个 段 都 从 地 址 0 到 地 址 
22-1。 然 而 ， 大 多 数 操作 系统 (包括 UNIX 和 各 种 版 本 的 Windows ) 都 只 能 支持 对 一 个 地 址 
段 进行 操作 ， 这 就 导致 大 多 数 的 应 用 程序 只 能 使 用 一 个 22 个 字 节 的 线性 地 址 空间 ， 而 且 这 部 
分 空间 还 可 能 被 操作 系统 占用 一 部 分 。 地 址 空间 中 的 每 一 个 字 节 都 有 相应 的 地 址 ， 因 此 地 址 
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的 长 度 为 32 位 。 地 址 空间 按照 小 端 〈 低 位 地 址 存放 低位 字 节 ) 的 方式 存储 字 。 

Core i7 的 寄存 器 如 图 5-3 所 示 。 最 上 面 的 4 个 32 位 寄存 器 EAX, EBX, ECX, EDX 可 
以 说 是 通用 寄存 器 ， 尽 管 它们 中 的 每 一 个 都 有 自己 的 特殊 用 途 。EAX 是 主要 的 算术 寄存 器 ; 
EBX 用 于 保存 指针 ( 内 存 地 址 ) ; ECX 用 于 循环 记 数 ; EDX 则 用 于 进行 乘除 法 ， 它 和 EAX 
一 起 用 于 保存 64 位 的 乘积 和 被 除数 。 这 些 寄 存 器 中 的 每 一 个 的 最 低 16 位 和 最 低 8 位 都 分 别 
是 一 个 16 位 和 8 位 的 寄存 器 。 这 些 寄 存 器 可 以 使 我 们 很 容易 地 处 理 16 位 和 8 位 的 数 。8088 
和 80286 中 只 有 8 位 和 16 位 的 寄存 器 。80386 中 增加 了 32 位 的 寄存 器 ,同时 也 增加 了 E 作 
为 前 级 ， 表 示 扩 展 (Extended )。 

下 面 四 个 也 是 具有 特殊 用 途 的 通用 寄存 器 。ESI 和 EDI 用 于 保存 内 存 指针 ， 它 们 经 常用 
于 硬件 的 字符 串 处 理 指令 ， 在 这 种 指令 中 ，ESI 指向 源 串 而 EDI 指 向 目的 串 。EBP 也 是 指针 
寄存 器 。 它 通常 指向 当前 栈 段 的 底部 ， 就 像 IJVM 中 的 LV。 当 一 个 寄存 器 (例如 EBP ) 指向 
当前 栈 段 的 底部 时 ， 它 通常 被 称 为 段 指针 (frame pointer) ESP 是 一 个 栈 指针 。 

从 CS 到 GS 的 这 一 组 寄存 器 都 是 段 寄 存 器 。 我 们 可 以 认为 它们 是 电子 的 三 叶 虫 ， 一 种 
古老 的 化 石 ， 它 们 存在 的 目的 只 是 为 了 使 Core i7 能 够 继续 使 用 8088 中 用 16 位 地 址 来 访问 
22 个 字 节 的 地 址 空间 的 方法 。 当 Core i7 被 设置 成 使 用 32 位 的 线性 地 址 空间 时 ， 这 些 寄存 器 
可 以 被 安全 地 忽略 ， 知 道 这 一 点 就 足够 了 。 再 下 面 一 个 寄存 器 是 程序 计数 器 EIP (Extended 
Instruction Pointer )。 最 后 一 个 是 程序 状态 字 寄 存 器 EFLAGS。 





EFLAGS 


图 5-3” Core i7 中 主要 的 寄存 器 


5.1.6 OMAP4430 ARM 指令 系统 层 概 述 


ARM 体系 结构 是 由 Acorn Computer 公司 于 1985 年 首先 提出 的 ， 该 体系 结构 的 主要 基础 
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是 20 世纪 80 年 代 Berkeley 大 学 的 研究 工作 (Patterson, 1985 ; Patterson 和 Séquin, 1982 ). 
最 初 的 ARM ( 称 为 ARM2 ) 是 支持 26 位 地 址 空间 的 32 位 体系 结构 ，OMAP4430 使 用 了 基 
F ARM v7 的 ARM Cortex A9 微 体系 结构 ， 我 们 将 在 这 一 章节 讨论 该 指令 系统 。 为 了 和 本 书 
的 其 他 部 分 保存 一 致 ， 我 们 在 这 里 使 用 OMAP4430 作为 例子 ， 实 际 上 在 指令 系统 层 ， 所 有 基 
于 ARM Cortex A9 内 核 的 实现 都 是 一 致 的 。 

OMAP4430 的 内 存 结构 是 简单 而 清晰 的 : 可 寻 址 的 地 址 空间 是 一 个 2” 个 字 节 的 线性 数 
组 。ARM 处 理 器 使 用 的 是 二 元 字 节 序 (bi-endian )， 因 此 它 可 以 通过 大 端 或 小 端 字 节 序 来 访 
问 内 存 。 通 过 在 处 理 器 重启 的 时 候 读 取 一 个 系统 内 存 块 ，ARM 便 可 以 指定 其 使 用 哪 一 种 字 节 
序 。 为 了 保证 系统 内 存 块 被 正确 地 读 取 ， 该 块 必须 以 小 端 格式 储存 ， 即 使 该 计算 机 将 被 配置 
成 大 端 字 节 序 。 

与 实现 所 需 相 比 ， 指 令 系 统 层 必须 考虑 更 大 的 地 址 空间 ， 这 一 点 很 重要 ， 因 为 将 来 的 实 
现 几 乎 肯定 需要 处 理 器 能 够 访问 更 大 的 内 存 。ARM 指令 系统 的 32 位 地 址 空间 给 设计 者 们 带 
来 越 来 越 多 的 苦恼 ， 这 是 因为 很 多 基于 ARM 的 系统 ， 例 如 智能 手机 ， 就 已 经 拥有 了 超过 2” 
字 节 的 内 存 。 到 目前 为 止 ， 设 计 者 为 了 解决 上 述 ARM 地 址 空间 的 问题 ， 设 计 师 们 将 大 部 分 
内 存 使 用 闪存 存储 代替 。 闪 存 使 用 磁盘 接口 访问 ， 能 够 支持 更 大 的 面向 块 的 地 址 空间 。 为 了 
对 这 些 可 能 抹杀 自己 市 场 份额 的 地 址 空间 进行 寻 址 ，ARM 公司 最 近 发 布 了 支持 64 位 地 址 空 
间 的 ARM v8 指令 系统 。 

成 功 的 体系 结构 所 直到 的 最 严重 的 问题 之 一 就 是 它们 的 指令 系统 层 限制 了 可 编 址 地 址 空 
间 的 大 小 。 在 计算 机 科学 中 ， 使 某 种 体系 结构 不 能 工作 的 唯一 的 错误 就 是 没有 足够 的 位 。 在 
将 来 的 某 一 天 ， 当 一 般 的 游戏 都 需要 1TB 的 内 存 才能 运行 的 时 候 ， 你 的 孙子 们 会 问 你 为 什么 
过 去 的 计算 机 只 有 32 位 地 址 和 4GB 的 物理 内 存 。 

ARM 的 指令 系统 层 是 很 清晰 的 ， 尽 管 为 了 使 某 些 指令 编码 更 为 简便 ， 它 的 寄存 器 组 织 得 
较为 复杂 。 例 如 该 体系 结构 将 程序 计数 器 映射 到 寄存 器 R15 上 ， 此 外 ， 它 又 允许 由 ALU 操 
作 产 生 的 分 支 将 RIS 作为 目的 地 址 寄存 器 。 经 验 显示 ， 寄 存 器 组 织 的 复杂 性 带 来 的 麻烦 比 它 
的 优点 多 ,但 是 由 于 古老 的 向 后 兼容 性 规则 使 我 们 不 能 摆脱 它 。 

ARM 指令 系统 层 有 两 组 寄存 器 : 16 个 32 位 的 通用 寄存 器 和 32 个 32 位 的 浮 点 寄存 器 

354) (如果 支 持 VFP 协 处 理 器 )。R0 ~ R15 是 通用 寄存 器 ， 它 们 在 特定 的 上 下 文中 使 用 其 他 的 名 
字 。 这 些 名 字 和 对 应 的 功能 如 图 5-4 所 示 。 


ERAF 
i a 















O kacen | VA ve |S 
Oor o | 内 部 进程 调用 寄存 器 ( 32 位 调用 ) 
| sp |e O 
链接 寄存 器 ( 保存 当前 函数 的 返回 地 址 ) 
图 5-4 ARM v7 的 通用 寄存 器 
所 有 的 通用 寄存 器 都 是 32 位 的 ， 可 以 使 用 多 种 存 取 指 令 来 读 写 它们 。 图 5-4 中 给 出 的 用 


法 一 部 分 源 于 约定 ， 另 一 部 分 来 自 于 硬件 对 它们 的 处 理 方式 。 一 般 来 说 ， 不 按照 图 中 所 示 的 
用 法 使 用 寄存 器 是 不 明智 的 ， 除 非 你 是 ARM 教派 的 黑 带 级 选手 ， 而 且 确 确 实 实 知道 你 正在 
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做 什么 。 确 保 程序 访问 正确 的 寄存 器 和 执行 正确 的 运算 是 编译 器 设计 者 和 程序 员 需 要 承担 的 
责任 。 例 如 ， 把 浮 点 数 存 人 通用 寄存 器 后 执行 整数 加 法 是 很 容易 的 ， 虽 然 这 样 的 操作 没有 任 
何 意义 ， 但 是 CPU 还 是 会 很 乐意 执行 它 。 

Vx 寄存 器 用 于 保存 所 有 的 过 程 中 用 到 的 常量 、 变 量 和 指针 ， 尽 管 如 果 需 要 ， 它 们 可 以 在 
过 程 的 人 口 和 出 口 被 重新 保存 或 者 取出 。Ax 寄存 器 用 于 给 过 程 传递 参数 来 避免 访问 内 存 。 后 
面 我 们 将 解释 它们 是 如 何 工作 的 。 

有 四 个 专用 寄存 器 有 特殊 的 用 途 。 卫 寄存 器 用 于 解决 ARM 的 函数 调用 指令 (BL) 不 能 
访问 所 有 2” 字 节 地 址 空间 的 问题 。 如 果 调 用 的 目标 地 址 比 指令 能 够 表达 得 远 ， 指 令 将 会 调用 
一 个 将 IP 寄存 器 作为 目的 地 址 的 “虚拟 ”代码 片段 。SP 指向 当前 栈 的 顶部 ， 它 会 随 着 数据 的 
人 栈 和 出 栈 而 不 断 变化 。 第 三 个 专用 寄存 器 是 LR， 它 用 于 保存 过 程 调用 的 返回 地 址 。 第 四 个 
特殊 寄存 器 是 我 们 前 面 提 到 的 程序 计数 器 PC, BLA PC 寄存 器 中 的 值 可 以 重 定向 新 PC 地 址 
所 对 应 的 指令 的 读 取 。 另 外 一 个 ARM 体系 结构 中 重要 的 寄存 器 是 程序 状态 寄存 器 PSR， 它 
保存 了 为 0、 为 负 和 溢出 等 先前 ALU 运算 结果 的 状态 。 

ARM 指令 系统 ( 当 配 置 了 VEP 协 处 理 器 时 ) 还 有 32 个 32 位 的 浮 点 数 寄存 器 ， 用 于 保 
存 32 个 32 位 ( 单 精度 ) 或 者 16 个 64 位 ( 双 精 度 ) 浮 点 数 。 浮 点 数 寄存 器 的 位 数 是 由 具体 
的 操作 指令 来 确定 的 ; 一 般 说 来 ， 所 有 ARM 的 浮 点 指令 都 同时 存在 单 精度 与 双 精 度 的 形式 。 

ARM 体系 结构 是 一 种 加 载 / 存储 体系 结构 (load/store architecture )。 也 就 是 说 ， 能 够 直 
接 访 问 内 存 的 唯一 操作 只 有 加 载 和 存储 ， 这 类 指令 用 于 在 寄存 器 和 内 存 之 间 传 递 数 据 。 所 有 
的 算术 和 逻辑 指令 的 操作 数 都 应 该 来 自 寄存 器 或 者 由 指令 本 身 提 供 〈 而 不 是 来 自 内 存 )， 同 时 
所 有 结果 都 必须 保存 在 寄存 器 中 而 不 是 写 人 内 存 )。 


5.1.7 ATmega168 AVR 指令 系统 层 概 述 


我 们 的 第 三 个 例子 是 ATmegal168。 和 Core i7 (主要 用 于 台式 计算 机 和 服务 器 集群 ) 和 
OMAP4430 ( 主要 用 于 电话 、 平 板 和 其 他 的 移动 设备 ) 不 同 ，ATmegal168 通常 应 用 于 诸如 交 
通 灯 和 定时 收音 机 等 较为 低 端 的 做 人 式 系统 ， 用 来 控制 设备 和 管理 按钮 、 指 示 灯 以 及 用 户 界 
面 的 其 他 部 分 。 本 节 我 们 对 ATmegal 68 做 一 个 简短 的 技术 介绍 。 

ATmegal68 只 有 一 种 模式 ， 没 有 硬件 保护 ， 因 为 它 从 来 都 不 会 运行 多 个 程序 ， 避 免 给 潜 
在 的 恶意 用 户 以 可 乘 之 机 。ATmegal168 内 存 模 式 是 极其 简单 的 ， 具 有 一 个 16KB 的 程序 地 址 
空间 和 一 个 IKB 的 数据 地 址 空间 。 根 据 其 访问 的 是 程序 内 存 还 是 数据 内 存 的 区 别 ， 访 问 同一 
个 地 址 将 访问 不 同 的 内 存 。 程 序 和 数据 地 址 空间 分 开 可 以 方便 地 使 用 闪存 实现 程序 空间 ， 而 
使 用 SRAM 来 实现 数据 空间 。 

ATmegal 68 可 能 有 几 种 不 同 的 内 存 实现 ， 其 取决 于 设计 者 想 要 在 处 理 器 上 花费 多 少 。 最 
简单 的 一 种 ，ATmage48 是 采用 一 个 4KB 的 闪存 来 存放 程序 ， 并 用 一 个 512 字 节 的 SRAM 来 
存放 数据 ,闪存 和 SRAM 都 在 芯片 内 部 实现 。 对 于 小 的 应 用 而 言 ， 这 些 内 存 已 经 足够 了 ， 将 
所 有 的 内 存 都 放 到 CPU 芯片 内 部 是 一 件 大 好 事 。ATmega88 片 内 内 存 是 ATmega48 的 两 倍 : 
8KB 的 ROM 和 1KB 的 SRAM。 

ATmegal68 使 用 两 层 内 存 结构 来 提供 更 好 的 程序 安全 保障 。 程 序 代码 所 在 的 闪存 存储 分 
为 引导 程序 部 分 和 应 用 程序 部 分 。 当 微 控制 器 第 一 次 启动 的 时 候 ， 保 险 位 (fuse bit) 会 一 次 
性 写 人 ， 来 分 配 上 述 两 部 分 内 存 的 大 小 。 为 了 安全 考虑 ， 只 有 引导 程序 部 分 的 代码 才能 更 新 
闪存 存储 。 根 据 这 个 特性 ， 我 们 可 以 放心 地 将 任何 代码 放 到 应 用 程序 部 分 且 不 用 担心 它 会 将 


355 


256 FSF 


系统 中 的 其 他 代码 ( 包括 下 载 的 第 三 方 应 用 ) 弄 乱 ( 因为 在 应 用 程序 空间 运行 的 应 用 代码 不 
能 改写 闪存 存储 )。 想 要 将 代码 与 系统 绑 定 ， 软 件 提供 商 必 须 先 对 代码 进行 数字 签名 。 引 导 程 
序 只 会 将 合法 的 软件 供应 商 进行 数字 签名 后 的 代码 载 人 闪存 存储 。 这 样 ， 系 统 中 只 会 运行 由 
可 信 的 软件 供应 商 所 保证 的 程序 。 这 个 方法 使 用 起 来 相当 灵活 ， 只 要 进行 过 正确 的 数字 签名 ， 
甚至 连 引导 程序 也 可 以 被 替换 。Apple 和 TiVo 公司 就 是 使 用 类 似 的 方法 来 确保 运行 在 他 们 设 
备 上 的 代码 不 被 损害 的 。 

ATmegal68 有 32 个 8 位 的 通用 寄存 器 ，R0 ~ R31。 访问 通用 寄存 器 的 指令 需要 5 位 来 
指定 使 用 的 寄存 器 。ATmegal168 寄存 器 
的 一 个 特点 是 它们 都 是 在 内 存 空 间 上 实 
现 的 。 数 据 内 存 空间 的 第 0 字 节 同时 也 
是 R0。 如 果 一 条 指令 先 改变 了 R0 然后 
又 读 出 内 存 的 第 0 个 字 节 ， 就 会 发 现 读 
出 的 内 容 就 是 R0 的 值 。 类 似 地 ， 第 1 
字 节 是 R1， 直 到 R31。ATmegal168 内 
存 的 组 织 如 图 5-5 所 示 。 p ‘ 

为 了 访问 IO 设备 ， 系 统 保留 了 64 ”状态 寄存 器 (SREG) 


程序 内 存 





个 字 节 ， 包 括 一 个 内 部 的 片上 系统 设备 snes C am jiso 
的 寄存 器 。 这 64 个 字 节 位 于 内 存 中 的 C Eie O sist 


32 个 通用 寄存 句 地 址 的 局面， 地 址 是 ss ATmegal68 片上 的 寄存 器 和 内 存 组 织 
32 ~ 95。 

除了 上 述 四 组 每 组 8 个 通用 寄存 器 外 ，ATmega168 还 有 少量 的 专用 寄存 器 ， 其 中 最 重要 
的 两 个 寄存 器 一 -状态 寄存 器 ( SREG ) 和 栈 指针 寄存 器 (SP) 一 在 图 5-5 中 也 有 说 明 。 状 
态 寄存 器 从 左 到 右 8 位 分 别 表示 中 断 位 (1)、 半 进位 (H) 符号 位 (S)、 溢 出 位 (V)、 负 标 
志 位 (N )、 零 标志 位 (Z) 和 进位 输出 位 (C)。 除 了 中 断 位 外 ， 所 有 这 些 状态 位 都 是 由 运算 
操作 产生 的 。 

通过 设置 状态 寄存 器 的 中 断 位 可 以 全 局 控制 是 否 允 许 中 断 。 如 果 中 断 位 为 0， 将 屏蔽 所 
有 的 中 断 。 显 然 ， 中 断 位 清 零 便 可 屏蔽 掉 某 条 指令 在 将 来 可 能 产生 的 所 有 中 断 ; 中断 位 置 1 
将 会 允许 现在 或 将 来 可 能 会 发 生 的 所 有 中 断 。 每 个 设备 都 会 与 一 个 中 断 许可 位 相关 联 。 如 果 
设备 的 中 断 许可 位 和 芯片 的 全 局 中 断 位 都 被 置 1， 该 设备 就 可 以 中 断 处 理 器 。 

类 似 于 第 4 章 中 介绍 Java JVM 时 提 到 的 PUSH 和 POP 等 指令 访问 内 存 时 ， 栈 指针 寄存 
器 SP 会 保存 当前 的 数据 内 存 地 址 。SP 的 位 置 在 内 存 中 的 地 址 为 80， 因 为 一 个 字 节 的 长 度 不 
足以 对 1024 字 节 的 数据 内 存 进行 寻 址 ， 所 以 SP 寄存 器 包含 了 内 存 中 两 个 连续 的 字 节 来 组 成 
一 个 16 位 的 值 进行 寻 址 。 


5.2 ”数据 类 型 


所 有 的 计算 机 都 需要 数据 。 实 际 上 ， 对 于 大 多 数 计算 机 系统 来 说 ， 主 要 的 任务 就 是 处 理 
金融 的 、 商 业 的 、 科 学 的 、 工 程 的 或 者 其 他 种 类 的 数据 。 在 计算 机 内 部 数据 必须 用 特殊 的 形 
式 来 表示 。 指 令 系 统 层 使 用 多 种 不 同 的 数据 类 型 。 下 面 我 们 来 介绍 这 些 数据 类 型 。 

数据 类 型 的 关键 问题 是 某 种 特殊 的 数据 类 型 是 否 有 硬件 支持 。 硬 件 支持 意味 着 指令 需要 
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使 用 特殊 格式 的 数据 而 用 户 不 能 自由 选择 不 同 的 格式 。 例 如 ， 会计师 们 在 写 负数 时 有 一 个 特 
殊 的 习惯 ,他 们 把 负 号 写 在 数字 的 最 右边 而 不 是 计算 机 科学 家 们 熟悉 的 最 左边 。 假 设 一 个 会 
计 公 司 计算 中 心 的 负责 人 为 了 给 老板 留 下 深刻 印象 ， 把 计算 机 中 的 所 有 数字 的 符号 位 从 最 左 
面 一 位 改 到 最 右面 一 位 。 可 以 想象 ， 肯定 会 给 老板 留 下 深刻 的 印象 ， 因 为 所 有 的 软件 都 不 能 
正常 工作 了 。 当 硬件 需要 一 个 特定 格式 的 整数 时 给 它 一 个 别 的 数 ， 硬 件 肯 定 不 能 正常 工作 。 

再 考虑 另 一 个 会 计 公 司 ， 它 得 到 了 一 个 核实 联邦 债务 ( 也 就 是 美国 政府 欠 了 公众 多 少 钱 ) 
的 合同 。 这 里 使 用 32 位 计算 就 不 够 了 ， 因 为 涉及 的 数字 要 大 于 2 (大 约 有 4 万 亿 )。 一 个 解 
决 方案 是 使 用 两 个 32 位 的 整数 来 表示 一 个 数据 ， 这 样 可 以 获得 64 位 的 精度 。 如 果 计 算 机 硬 
件 不 支持 这 种 双 精 度数 (double-precision )， 所 有 的 运算 都 必须 用 软件 来 实现 ， 那 么 这 两 部 分 
的 次 序 如 何 就 没关系 了 ， 因 为 硬件 并 不 关心 这 一 点 。 这 是 一 个 没有 硬件 支持 ， 因 而 也 不 需要 
特殊 硬件 来 表示 的 数据 类 型 的 例子 。 在 下 面 几 小 节 中 ， 我 们 将 讨论 有 硬件 支持 的 而 且 需 要 特 
殊 格式 的 数据 类 型 。 


5.2.1 数值 数据 类 型 


数据 类 型 可 以 分 为 两 大 类 : 数值 型 的 和 非 数 值 型 的 。 最 主要 的 数值 数据 类 型 是 整数 。 整 
数 有 多 种 长 度 ， 典 型 的 长 度 有 8 位 、16 位 、32 位 和 64 位 。 整 数 用 于 计数 ( 例如， 表示 一 个 
硬件 商店 中 库存 的 螺丝 刀 的 数量 )、 标 识 〈 例如， 银行 帐户 ) 和 其 他 的 许多 用 途 。 大 部 分 的 现 
代 计 算 机 都 使 用 二 进 制 补 码 表示 法 来 表示 整数 ， 虽 然 过 去 也 曾经 使 用 过 别 的 表示 法 。 附 录 A 
讨论 了 二 进 制 数 。 

一 些 计算 机 同时 支持 无 符号 整数 和 有 符号 整数 。 无 符号 整数 没有 符号 位 ， 所 有 的 位 都 用 
来 保存 数据 。 这 种 数据 类 型 优点 是 有 一 个 额外 的 符号 位 ， 因 此 一 个 32 位 的 字 保 存 无 符号 整数 
时 范围 可 以 为 0 ~ 27-1 (包括 0 和 22-1)。 作 为 对 比 ， 一 个 使 用 二 进 制 补 码 的 32 位 有 符号 
整数 只 能 处 理 不 大 于 23-1 的 数 ， 当 然 它 还 可 以 处 理 负数 。 

需要 表示 3.5 这 样 不 能 用 整数 表达 的 数字 时 可 以 使 用 浮 点 数 。 附 录 B 讨论 了 浮 点数 。 浮 
点 数 有 32 位、64 位， 有 时 还 有 128 位 的 。 大 多 数 计算 机 都 有 浮 点 运算 指令 。 许 多 计算 机 对 
于 整数 操作 数 和 浮 点 操作 数 分 别 使 用 不 同 的 寄存 器 。 

某 些 编程 语言 ， 特 别 是 COBOL， 人 允许 使 用 十 进 制 数 据 类 型 。 那 些 希 望 更 好 地 支持 
COBOL 的 计算 机 通常 用 硬件 来 支持 十 进 制 数 操作 。 通 常 的 做 法 是 用 一 个 4 位 二 进 制 编码 来 表 
示 一 个 十 进 制 数 ， 用 一 个 字 节 压缩 存放 两 个 十 进 制 数 (二进制 代码 的 十 进 制 格式 )。 然 而 ， 压 
缩 十 进 制 数 时 不 能 进行 正确 的 运算 ， 因 此 我 们 需要 特殊 的 正确 的 十 进 制 运 算 指 令 。 这 些 指令 
需要 知道 第 3 位 的 进位 。 这 就 是 为 什么 要 在 条 件 码 中 保存 一 个 辅助 进位 的 原因 。 顺 便 说 一 句 ， 
声名 狼藉 的 2000 年 问题 就 是 由 那些 认为 用 两 位 十 进 制 数 表示 年 比 用 16 位 二 进 制 数 要 节省 的 
COBOL 程序 员 带 来 的 。 优 化 的 结果 就 是 这 样 ! 


5.2.2 非 数 值 数据 类 型 


早期 的 大 多 数 计算 机 的 应 用 是 面向 数字 处 理 的 ， 而 现代 计算 机 经 常用 于 非 数 值 型 的 应 用 ， 
如 电子 邮件 、Web 冲浪 、 数 码 摄 影 、 多 媒体 制作 和 回放 等 。 这 些 应 用 需要 其 他 的 数据 类 型 ， 
一 般 来 说 ， 指 令 系 统 层 指令 也 要 支持 这 些 类 型 。 很 明显 ， 字 符 类 型 是 重要 的 ， 尽 管 并 不 是 所 
有 的 计算 机 都 对 它 提供 硬件 支持 。 最 常用 的 字符 编码 是 ASCII 和 UNICODE。 它 们 分 别 支 持 
7 位 字符 和 16 位 字符 。 对 它们 的 讨论 见 第 2 章 。 
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指令 系统 层 有 一 些 特殊 的 指令 专门 用 于 处 理 字符 串 (字符 串 就 是 连续 的 字符 流 )， 这 是 很 常 
见 的 。 字 符 串 有 时 通过 特殊 的 结束 符 来 表示 结束 。 另 一 种 方法 是 用 一 个 字符 串 长 度 域 使 我 们 能 
够 知道 字符 串 的 结束 位 置 。 字 符 串 指令 可 以 执行 拷贝 、 查 找 、 编 辑 以 及 其 他 的 一 些 字 符 串 操作 。 

布尔 值 也 是 很 重要 的 。 一 个 布尔 值 必须 是 下 面 两 个 值 中 的 一 个 : 真 或 者 假 。 从 理论 上 来 
说 ， 用 一 位 就 可 以 表示 一 个 布尔 值 ，0 表示 假 1 表示 真 (反之 亦 可 )。 而 在 实际 使 用 中 ， 一 
布尔 值 用 一 个 字 节 或 一 个 字 来 表示 ， 这 是 因为 一 个 字 节 中 的 单独 的 位 由 于 没有 地 址 而 很 难 访 
la), 布尔 值 通常 使 用 这 样 的 约定 : 0 表示 假 ， 所 有 其 他 值 都 表示 真 。 

如 果 布 尔 值 构成 了 一 个 数组 的 话 ， 我 们 就 可 以 用 一 位 来 表示 一 个 布尔 值 ， 这 样 一 个 32 位 
的 字 就 可 以 表示 32 个 布尔 值 。 这 样 的 数据 结构 称 为 位 图 (bit map )， 在 许多 情况 下 都 会 用 到 
它 。 例 如 ， 可 以 用 位 图 来 表示 磁盘 上 的 空间 块 。 如 果 磁 盘 有 nn 块 ， 位 图 就 有 nn 位 。 

最 后 要 介绍 的 一 种 数据 类 型 是 指针 ， 指 针 就 是 一 个 机 器 地 址 。 我 们 已 经 不 止 一 次 地 讨论 
过 指针 。 在 Mic-x HLF, SP, PC, LV 和 CPP 都 是 指针 。ILOAD 指令 的 工作 方式 就 是 通过 指 
针 加 上 固定 的 偏 移 量 来 访问 变量 。 虽 然 指针 非常 有 用 ， 但 是 它们 的 使 用 也 是 大 量 的 编程 错误 
的 来 源 ， 这 些 错误 常会 带 来 严重 的 后 果 ， 因 此 在 使 用 指针 时 必须 非常 注意 。 


5.2.3 Core i7 的 数据 类 型 


如 图 5-6 所 示 ，Core i7 支持 二 进 制 补 码 表示 的 有 符号 整数 、 无 符号 整数 、 二 进 制 编码 十 
进 制 数 和 IEEE 754 中 规定 的 浮 点 数 。 由 于 Core i7 是 由 功能 较 简 单 的 8 位 /16 位 计算 机 发 展 而 
来 的 ， 因 此 它 能 通过 许多 的 算数 、 布 尔 运 算 和 比较 指令 来 处 理 8、16 以 及 32 位 的 整数 。 同 时 ， 
该 处 理 器 还 可 以 运行 在 64 位 模式 下 ， 支 持 64 位 寄存 器 和 操作 。 在 Core i7 中 ， 操 作 数 不 需要 
在 内 存 中 对 齐 ， 当 然 如 果 字 的 地 址 是 4 的 倍数 可 以 提高 性 能 。 
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图 5-6 Core i7 的 数值 数据 类 型 
x 表示 支持 该 类 型 。 标 有 “64 位 ”的 只 能 在 64 位 模式 下 支持 


Core i7 还 擅长 处 理 8 位 的 ASCII 字符 ， 它 有 专用 的 指令 用 于 拷贝 和 查找 字符 串 。 这 些 指 
令 可 以 同时 用 于 长 度 已 知 的 字符 串 和 带 有 结束 标志 的 字符 串 。 在 字符 串 处 理 函 数 库 中 会 经 常 
用 到 它们 。 


5.2.4 OMAP4430 ARM CPU 的 数据 类 型 


如 图 5-7 所 示 ，OMAP4430 支持 的 数据 类 型 种 类 很 多 。 就 整数 来 说 ， 它 可 以 支持 8 位 、16 
位 和 32 位 的 操作 数 ， 包 括 有 符号 的 和 无 符号 的 。 在 对 小 数据 类 型 的 操作 上 ，OMAP4430 甚至 
比 Core i7 做 得 更 好 。OMAP4430 是 一 个 使 用 32 位 数据 通路 和 指令 的 机 器 。 对 于 加 载 和 存储 指 
S, 程序 可 以 指定 加 载 数值 的 数据 宽度 和 符号 位 ( 例如， 加 载 有 符号 字 节 : LDRSB), 读 出 的 
数值 将 根据 加 载 指 令 的 不 同 被 转换 为 可 比较 的 32 位 数值 ， 同 样 ， 程 序 也 会 根据 存储 指令 的 不 
同 为 写 入 内 存 的 数据 指定 数据 宽度 和 符号 位 ， 此 外 这 些 指 令 只 能 访问 输入 寄存 器 的 指定 部 分 。 
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OMAP4430 中 有 符号 整数 使 用 的 是 二 进 制 补 码 保存 ， 此 外 还 有 32 位 及 64 位 的 浮 点 操作 
数 ， 遵 循 IEEE 754 标准 。OMAP4430 不 支持 使 用 二 进 制 编码 来 保存 十 进 制 数 ， 并 且 所 有 操作 
数 都 必须 对 齐 ， 字 符 和 字符 串 类 型 都 没有 特别 的 硬件 指令 支持 ， 它 们 完全 由 软件 来 操作 。 


| 类 型 | em | 16 位 | 32 位 | 64 位 | 
了 tes ne ee Ce 





图 5-7 OMAP4430 ARM CUP 的 数值 数据 类 型 
x 表示 支持 该 类 型 


5.2.5 ATmega168 AVR CPU 的 数据 类 型 


ATmegal68 AVR 只 有 几 种 有 限 的 数据 类 型 。 毫 无 例外 ， 所 有 的 寄存 器 都 是 8 位 宽 ， 所 以 
整数 也 都 是 8 位 宽 。 字 符 也 是 8 位 宽 。 实 际 上 硬件 真正 支持 的 用 来 进行 算术 运行 的 数据 类 型 
只 是 一 个 8 位 的 字 节 ， 如 图 5-8 所 示 。 





图 5-8 ATmegal68 的 数值 数据 类 型 


x 表示 支持 该 类 型 


为 了 方便 内 存 的 访问 ，ATmegal168 对 16 位 的 无 符号 指针 也 有 一 定 的 支持 。 指 令 中 的 
X,Y AZ = 16 位 指针 操作 数 可 以 通过 分 别 串 联 3 组 8 位 的 寄存 器 一 一 R2/R27、R28/R29、 
R30/R31 来 实现 。 当 加 载 指令 使 用 X、Y AZ 作为 地 址 操作 数 时 ， 处 理 器 也 可 以 选择 增加 或 
减少 需要 的 数值 。 


5.3 指令 格式 


一 条 指令 由 操作 码 和 其 他 的 一 些 诸如 操作 数 从 哪里 来 和 计算 结果 送 往 哪 里 去 这 样 的 信息 
组 成 。 定 义 操 作 数 的 来 源 (也 就 是 它们 的 地 址 ) 的 通用 术语 称 为 寻 址 (addressing )， 下 面 我 
们 讨论 寻 址 。 

图 5-9 显示 了 第 二 层 指令 的 几 种 可 能 的 格式 。 指 令 总 有 一 个 操作 码 来 说 明 指令 的 功能 。 
还 可 能 有 0 个 、1 个 、2 个 或 3 个 地 址 。 


操作 码 操作 码 
a) 0 地 址 指令 b) 单 地 址 指令 

操作 码 | ”地址 ! | 地 址 2 操作 码 地 址 3 
c) 双 地 址 指令 d) 三 地 址 指令 


图 5-9 ”四 种 常见 的 指令 格式 
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在 某 些 计算 机 中 ， 所 有 指令 的 长 度 都 相同 ; 而 在 另外 一 些 计算 机 中 ， 指 令 可 能 有 多 种 不 
同 的 长 度 。 指 令 长 度 可 能 小 于 、 等 于 或 者 大 于 一 个 字 的 长 度 。 使 所 有 的 指令 长 度 相同 可 以 简 
化 设计 而 且 容 易 译 码 ， 但 是 浪费 空间 ， 因 为 指令 的 长 度 必须 取 所 有 指令 中 最 长 的 指令 的 长 度 。 
图 5-11 显示 了 指令 长 度 和 字 长 度 之 间 的 某 些 可 能 的 关系 。 











图 5-10 ”指令 和 字 长 之 间 某 些 可 能 的 对 应 关系 


5.3.1 指令 格式 设计 准则 


当 一 个 计算 机 设计 小 组 为 他 们 的 计算 机 选择 指令 格式 时 ， 他 们 必须 考虑 许多 因素 。 请 不 
要 低估 在 这 种 决策 中 遇 到 的 困难 。 设 计 者 必须 在 设计 新 计算 机 的 开始 阶段 就 选择 好 指令 格式 。 
如 果 计 算 机 在 市 场 上 销售 得 很 成 功 ， 那 么 它 的 指令 集 将 会 使 用 40 年 或 者 更 久 。 扩 展 新 指令 和 
利用 在 指令 集 的 使 用 周期 中 出 现 的 新 技术 的 能 力 是 相当 重要 的 ， 当 然 只 有 当 这 一 体系 结构 和 
设计 它 的 计算 机 公司 能 够 生存 到 成 功 的 那 一 天 时 才 会 需要 这 一 能 力 。 

一 个 特定 的 指令 系统 的 效率 在 很 大 程度 上 依赖 于 计算 机 实现 时 使 用 的 技术 。 在 相当 长 的 
一 段 时 间 之 后 ， 计 算 机 技术 将 发 生 巨大 的 变化 ， 然 后 我 们 就 可 以 看 到 某 些 指令 系统 层 很 不 幸 
地 作出 了 错误 的 选择 。 例 如 ， 如 果 内 存 访问 速度 很 快 ， 那 么 一 个 基于 栈 的 设计 (如 VM ) 就 
是 一 个 好 的 设计 ， 但 是 如 果 内 存 访 问 速度 很 慢 ， 那 么 有 大 量 的 寄存 器 的 设计 (如 OMAP4430 
ARM CPU ) 性 能 可 能 更 好 。 如 果 有 些 读者 认为 这 种 选择 很 容易 ， 我 可 以 请 他 们 拿 出 一 张 纸 写 
下 他 们 对 (1) 20 年 后 典型 的 CPU 时 钟 速度 (2) 20 年 后 典型 的 RAM 访问 时 间 的 预测 。 然 
后 把 这 张 纸 折 好 精心 地 保存 20 年 ，20 年 后 再 打开 它 看 一 看 。 自 信 的 读者 可 以 不 使 用 纸 片 而 
现在 就 直接 把 预测 结果 发 布 到 互联 网 上 。 

当然 ， 即 使 是 最 有 远见 的 设计 者 也 不 可 能 对 所 有 的 问题 都 作出 正确 选择 。 即 便 他 有 这 种 
能 力 ， 他 也 不 得 不 考虑 短期 利益 。 只 要 他 设计 的 优雅 的 指令 系统 比 它 的 丑陋 的 竞争 对 手 贵 一 
点 点 ， 他 的 公司 就 活 不 到 大 家 开始 欣赏 他 的 优雅 的 指令 系统 层 的 那 一 天 。 

在 所 有 的 其 他 条 件 都 一 样 的 情况 下 ， 短 指令 要 优 于 长 指令 。 由 n 条 16 位 指令 组 成 的 程序 
所 占 的 内 存 空 间 只 是 n 条 32 位 指令 组 成 的 程序 的 一 半 。 由 于 内 存 价格 不 断 下 降 ， 这 一 因素 在 
将 来 的 重要 性 可 能 会 降低 ， 如 果 我 们 不 考虑 软件 升级 的 速度 要 比 内 存 价格 下 降 的 速度 快 得 多 
这 一 事实 。 

此 外 ， 使 指令 长 度 达到 最 小 可 能 会 使 译 码 和 重 释 执行 变 得 困难 。 因 此 ， 在 考虑 最 小 指令 
长 度 时 必须 同时 考虑 译 码 和 指令 执行 所 需要 的 时 间 。 

内 存 带宽 ( 内 存 每 秒 钟 能 够 读 写 多 少 位 ) 是 使 减 小 指令 长 度 对 于 快速 处 理 器 越 来 越 重要 
的 另 一 个 原因 。 在 过 去 的 几 十 年 中 处 理 器 速度 的 增长 给 大 留 下 了 深刻 的 印象 ， 然 而 ， 内 存 的 
带宽 并 没有 同步 增长 。 内 存 没有 能 力 提供 处 理 器 所 能 处 理 的 指令 和 数据 是 处 理 器 遇 到 的 最 常 
见 的 性 能 限制 。 每 种 内 存 都 有 由 它 的 技术 和 工艺 设计 决定 的 带宽 ， 带 宽 瓶 颈 不 仅 在 主 存 中 存 
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在 ， 在 所 有 的 高 速 缓存 中 也 存在 。 

如 果 一 个 指令 cache 的 带宽 是 上 bps， 平 均 指令 长 度 是 r 位 ,那么 这 个 cache 每 秒 至 
多 可 以 传送 Wr 条 指令 。 尽 管 目前 的 研究 者 正 努力 去 打破 这 一 表面 上 看 是 不 可 能 突破 的 屏 
障 ， 但 是 我 们 必须 注意 到 这 是 处 理 器 执行 指令 的 速度 的 上 限 。 很 明显 ， 指 令 执行 的 速度 
(也 就 是 处 理 器 速度 ) 会 受到 指令 长 度 的 限制 。 较 短 的 指令 长 度 意 味 着 可 以 更 快 地 处 理 。 
由 于 现代 的 处 理 器 具有 在 一 个 时 钟 周 期 内 执行 多 条 指令 的 能 力 ， 因 此 必须 能 够 在 一 个 时 钟 
周期 内 同时 取 多 条 指令 。 指 令 cache 的 这 个 特征 使 得 指令 长 度 成 为 提高 性 能 的 一 个 重要 设 
计 准 则 。 

指令 设计 的 第 二 条 准则 是 在 指令 格式 中 必须 有 足够 的 空间 来 表示 所 有 的 操作 类 型 。 一 台 
有 2” 种 操作 的 计算 机 想 使 它 的 指令 长 度 小 于 n 显然 是 不 可 能 的 。 原 因 是 操作 码 没 有 足够 的 位 
来 表示 要 执行 的 指令 。 而 且 历 史 已 经 反复 告诉 我 们 ， 在 操作 码 中 不 留 下 富余 的 空间 给 以 后 的 
指令 集 扩 展 使 用 将 是 十 分 愚蠢 的 。 

第 三 条 准则 是 关于 地 址 字段 中 位 的 数量 。 如 果 设 计 一 台 使 用 8 位 字符 ， 具 有 22 个 字符 
大 小 主 存 的 计算 机 ， 设 计 者 可 以 按照 8 位 、16 位 、24 位 和 32 位 单元 来 分 配 连 续 地 址 ， 当 然 
也 可 以 使 用 别 的 设计 方法 。 

我 们 可 以 设想 一 下 如 果 一 支 设 计 队 伍 分 化 成 两 个 互 不 相让 的 小 组 会 发 生 什 么 情况 。 一 组 
提出 使 用 8 位 字 节 作 为 内 存 的 基本 单元 ， 而 另 一 组 认为 应 该 使 用 32 位 字 作为 基本 存储 单元 。 
前 一 个 小 组 计划 使 用 容量 为 22 个 字 节 的 内 存 ， 编 号 如 0、1、2、3、…、4294、967 295。 而 
后 一 个 小 组 计划 使 用 容量 为 2” 个 字 的 内 存 ， 编 号 如 0、1、2、3、…、1073、741 823。 

第 一 组 会 指出 ， 在 32 位 字 的 内 存 组 织 中 ， 为 了 比较 两 个 字符 ， 程 序 不 仅 需要 读 出 包含 字 
符 的 字 ， 而 且 为 了 能 够 比较 它们 ， 程 序 还 需要 从 字 中 把 它们 分 离 出 来 。 要 做 到 这 一 点 ， 需 要 
额外 的 指令 ， 这 就 浪费 了 空间 。 而 采用 8 位 的 内 存 组 织 ， 由 于 每 个 字符 都 有 地 址 ， 从 而 使 比 
较 操 作 相对 容易 实现 。 

32 位 字 的 支持 者 们 会 这 样 答复 。 他 们 指出 在 他 们 的 方案 中 只 需要 2” 个 不 同 的 地 址 ， 这 
样 地 址 长 度 只 需要 30 位 ， 而 8 位 字 节 的 方案 需要 32 个 地 址 位 来 对 相同 大 小 的 内 存 进行 寻 址 。 
使 用 比较 短 的 地 址 意味 着 指令 长 度 相 对 较 短 ， 这 样 不 仅 节约 了 空间 也 节省 了 取 指 时 间 。 男 外 ， 
作为 可 选 方案 ，32 位 的 方案 可 以 使 用 32 位 地 址 来 引用 16GB 大 小 的 内 存 ， 而 不 是 微不足道 的 
4GB。 

这 个 例子 说 明 为 了 获得 较 细 粒度 的 内 存 访问 ， 付 出 的 代价 就 是 必须 使 用 较 长 的 地 址 位 ， 
从 而 指令 长 度 也 会 相对 较 长 。 内 存 组 织 中 可 能 的 最 小 访问 粒度 是 每 一 位 都 可 以 直接 寻 址 ( 比 
如 ，Burroughs B1700 机 )。 另 一 种 可 能 性 是 内 存 由 非常 长 的 字 组 成 (如 CDC Cyber 系列 机 字 
长 为 60 位 )。 

现代 计算 机 在 这 一 点 上 已 经 达到 了 平衡 ， 在 某 种 意义 上 说 ， 是 达到 了 最 差 的 平衡 点 。 它 
们 要 求 能 够 对 所 有 的 字 节 进行 寻 址 ， 但 是 所 有 的 内 存在 进行 一 次 访问 时 都 会 读 出 一 个 、 两 个 
有 时 是 四 个 字 。 举 个 例子 ， 为 了 从 Core i7 的 内 存 中 读 出 一 个 字 节 至 少 需要 取出 8 个 字 节 ， 甚 
至 还 可 能 需要 读 出 整个 64 字 节 的 cache 块 。 


5.3.2 ”扩展 操作 码 


在 前 一 小 节 我 们 看 到 短 地 址 和 合适 的 内 存 访问 粒度 是 如 何 相互 平衡 的 。 这 一 小 节 中 我 们 
将 讨论 操作 码 和 地 址 之 间 是 如 何平 衡 的 。 考 虑 一 条 (n+tk) 位 长 的 指令 ， 其 中 包括 位 长 的 操 
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EBA n 位 长 的 单 地 址 。 这 条 指令 可 以 定义 2* 个 不 同 的 操作 并 可 以 寻 址 2" 个 内 存单 元 。 考 虑 
男 一 种 方案 ,同样 是 n+k 位 ， 把 它 分 成 三 1 位 操作 码 和 n+l1 位 地 址 ， 这 意味 着 指令 的 数量 只 
有 刚才 的 一 半 ， 但 是 可 寻 址 的 内 存单 元 扩大 了 一 倍 ， 或 者 内 存单 元 数量 不 变 而 访问 分 辨 率 增 
加 了 一 倍 。( K+1 ) 位 操作 码 和 (mw-1 ) 位 地 址 码 的 方案 可 以 获得 更 多 的 操作 类 型 ， 而 付出 的 代 
价 是 可 寻 址 空间 变 小 ， 或 者 在 相同 大 小 的 空间 条 件 下 的 访问 分 辨 率 变 差 。 以 上 讨论 的 是 比较 
简单 的 策略 ， 在 操作 码 和 地 址 位 之 间 可 以 采用 相当 复杂 的 平衡 策略 。 下 面 我 们 将 讨论 称 为 扩 
展 操 作 码 ( expanding opcode ) 的 策略 。 

通过 一 个 例子 可 以 很 清楚 地 理解 扩展 操作 码 的 概念 。 有 这 样 一 台 计 算 机 ， 它 的 指令 
KEE 16 位 而 其 中 操作 数 地 址 的 长 度 为 4 位 ， 如 图 5-11 所 示 。 这 种 情况 对 于 具有 16 个 
寄存 器 ( 因此 寄存 器 地 址 是 4 位 ) 而 且 算 术 运 算 都 在 寄存 器 中 进行 的 计算 机 来 说 是 非常 
合适 的 。 一 种 设计 方案 是 每 条 指令 具有 4 位 的 操作 码 和 3 个 地 址 ， 这 样 共 有 16 条 三 地 址 
的 指令 。 
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操作 码 。 ”地址 1 地 址 2 地 址 3 
图 5-11 使 用 4 位 操作 码 和 3 个 4 位 的 地 址 字段 的 指令 


但 是 ， 如 果 设 计 人 员 总 共 需 要 15 条 三 地 址 指令 、14 条 双 地 址 指令 、31 条 单 地 址 指令 和 
16 条 无 地 址 指令 ， 那 么 他 们 可 以 使 用 操作 码 0 ~ 14 作为 三 地 址 指令 的 操作 码 ， 而 操作 码 15 
作为 特殊 标志 使 用 (如 图 5-12 所 示 )。 

操作 码 15 意味 着 操作 码 包 含 在 第 8 ~ 15 位 中 而 不 仅 是 第 12 ~ 15 位 。 和 三 地 址 指令 一 
RE, 第 0 ~ 3 位 和 第 4 ~ 7 位 是 两 个 地 址 。 这 样 ，14 条 双 地 址 指令 最 左边 的 四 位 都 是 1111, 
而 第 8 ~ 11 位 的 值 从 0000 到 1101。 最 左边 的 四 位 是 1111， 而 且 8 ~ 11 位 的 值 是 1110 或 者 
1111 的 指令 又 被 特殊 处 理 。 它 们 的 操作 码 是 从 第 4 ~ 15 位 。 这 就 产生 了 32 条 新 操作 码 。 由 
于 我 们 只 需要 其 中 的 31 条， 因此 操作 码 为 111111111111 的 指令 的 0 ~ 15 位 都 被 解释 为 操作 
码 ， 这 就 得 到 了 16 条 无 地 址 指令 。 

在 刚才 的 讨论 中 我 们 看 到 ， 指 令 的 操作 码 变 得 越 来 越 长 : 三 地 址 指令 的 操作 码 是 
4 位 ， 两 地 址 指令 的 操作 码 是 8 位 ， 单 地 址 指令 的 操作 码 是 12 位 而 零 地 址 指令 的 操作 码 
是 16 位 。 

扩展 操作 码 的 思想 向 我 们 展示 了 在 操作 码 空间 和 其 他 信息 使 用 的 空间 之 间 是 如 何平 衡 的 。 
在 实际 使 用 中 ， 操 作 码 扩展 并 不 像 我 们 举 的 例子 那样 清晰 和 规则 。 实 际 上 ， 我 们 可 以 使 用 两 
种 方法 来 利用 变 长 操作 码 。 第 一 种 方法 : 所 有 指令 的 长 度 保持 相等 ， 然 后 给 需要 使 用 最 多 的 
位 定义 其 他 信息 的 指令 分 配 最 短 的 操作 码 。 第 二 种 方法 : 通过 给 常用 的 指令 分 配 较 短 的 操作 
码 ， 给 不 常用 的 指令 分 配 较 长 的 操作 码 来 使 平均 指令 长 度 使 其 达到 最 小 。 

把 变 长 操作 码 的 思想 发 挥 到 极致 ， 我 们 甚至 可 以 通过 对 每 条 指令 都 使 用 需要 的 最 少 
的 位 进行 编码 使 所 有 指令 的 平均 长 度 达到 最 小 。 然 而 不 幸 的 是 ， 这 样 做 的 结果 会 使 指令 长 
度 不 一 致 ， 甚 至 导致 指令 不 能 按照 字 节 的 边界 对 齐 。 虽 然 某 些 指 令 系统 层 具 有 这 样 的 特性 
( 例如， 注定 要 失败 的 Intel 432), 但 是 由 于 对 齐 特性 对 于 指令 的 快速 译 码 是 如 此 重要 ， 使 
得 这 种 优化 几乎 不 可 能 带 来 任何 实际 的 好 处 。 尽 管 如 此 ， 在 字 节 层 ， 这 种 特性 还 是 经 常 被 
采用 。 
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16 bits 


T000 a 
J 0001 oe 2 15 条 三 地 址 指令 
0010 xxxx 


1100 xxxx 
1101 xxxx 
1110 xxxx 








111 0000) yyyy 
1111 0001 yyyy 
1111 0010 





8 位 操作 码 14 条 双 地 址 指令 






1111 1011 
1111 1100 yyyy zzzz 
1111 1101 








2 mi 1110 0000 
了 2 位 操作 码 1111 1110 0001 31 条 单 地 址 指令 


LENO MAIL- J101 
1111 1111 1110 








1111 1111 1111 0000 
1111 Ili) 1111 0001 
1111 1111 1111 0010 





全 和 作品 16 条 零 地 址 指令 














llll 1111- 1111 1101 
1111 1111 1111 1110 
FTE SERPU | 





151211 87 4 3.0 
位 数 
图 5-12 ” 共 人 允许 使 用 15 条 三 地 址 指令 ，14 条 双 地 址 指令 ，31 条 单 地 址 指令 和 16 条 零 地 址 指令 的 操作 
码 扩展 方式 。 标 记 为 xxxx、yyyy、zzzz 的 是 四 位 的 地 址 字段 


5.3.3 Core i7 指令 格式 


Core i7 指令 格式 相当 复杂 ， 而 且 没 有 什么 规律 ， 它 最 多 具有 6 个 变 长 域 ， 其 中 5 个 是 可 
选 的 。Core i7 指令 格式 的 通用 模式 如 图 5-13 所 示 。Core i7 的 指令 格式 之 所 以 如 此 复杂 ， 是 
由 于 其 体系 结构 已 经 经 过 了 许多 代 的 演变 ， 而 某 些 早期 体系 结构 中 存在 的 不 好 的 特性 还 必须 
被 保留 下 来 。 为 了 保持 向 后 兼容 ， 早 期 的 设计 决策 后 来 是 不 可 逆转 的 。 一 般 来 说 ， 如 果 双 操 
作 数 指令 的 一 个 操作 数 在 内 存 中 ,那么 另 一 个 就 不 能 在 内 存 中 。 因 此 现 有 的 指令 要 入 对 两 个 
寄存 器 相 加 ， 要 么 把 一 个 寄存 器 加 到 内 存 中 ， 要 么 把 内 存 加 到 寄存 器 中 而 不 能 把 一 个 内 存 字 
加 到 另 一 个 内 存 字 中 。 
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2H O~S 1-2 0 一 1 0~1 0~4 0~4 


| ma | 操作 码 | MODE | se | fëm | vM% | 








位 数 6 1. 位 数 ” 2 3 3 
[ST 
A 
哪 一 个 是 源 操作 数 ? | 
字 节 / 字 
位 数 ”2 3 3 


[Mop | REG T R/M ] 
图 5-13 Core i7 的 指令 格式 


在 Intel 早期 的 体系 结构 中 ， 虽 然 也 大 量 使 用 了 前 组 字 节 来 修改 革 些 指令 ， 但 是 所 有 的 操 
作 码 长 度 都 是 一 个 字 节 。 前 缀 字 节 (prefix byte) 是 一 个 额外 的 操作 码 ， 它 附加 在 指令 的 最 前 
面 用 于 改变 指令 的 操作 。 在 IVM 中 使 用 的 WIDE 指令 就 是 使 用 前 级 字 节 的 例子 。 不 幸 的 是 ， 
在 体系 结构 发 展 的 过 程 中 ，Intel 用 尽 了 所 有 的 操作 码 ， 因 此 操作 码 0xFF 作为 洲 出 码 (escape 
code) 用 来 表示 本 条 指令 的 操作 码 是 两 字 节 的 。 

从 Core i7 操作 码 单 独 的 位 中 我 们 得 不 到 更 多 关于 指令 的 信息 。 操 作 码 字段 中 唯一 的 结构 
是 在 某 些 指令 中 操作 码 的 最 低位 被 用 来 指示 字 节 / 字 ， 相 邻 的 一 位 用 来 指示 内 存 地 址 (如果 
需要 访问 内 存 的 话 ) 是 源 地 址 还 是 目的 地 址 。 因 此 一 般 来 说 ， 操 作 码 必须 被 完全 译 码 后 才能 
决定 执行 哪 一 类 操作 ， 同 样 ， 指 令 的 长 度 也 只 有 在 操作 码 译 码 后 才能 知道 。 这 就 使 实现 更 高 
的 性 能 相当 困难 ， 因 为 在 决定 下 一 条 指令 的 起 始 地 址 之 前 首先 需要 执行 大 量 的 译 码 工作 。 

在 大 多 数 引用 内 存 操作 数 的 指令 中 ， 紧 跟着 操作 码 字 节 的 是 MODE 字 节 ， 它 包含 了 和 操 
作 数 有 关 的 信息 。 该 字 节 由 2 位 的 MOD 字段 和 两 个 3 位 的 寄存 器 字段 ，REG 和 R/M 组 成 。 
在 某 些 情 况 下 ， 这 个 字 节 的 前 3 位 用 于 操作 码 扩 展 ， 这 时 操作 码 的 长 度 就 是 11 位 。 不 管 怎 
样 ，2 位 模式 字段 意味 着 只 能 用 4 种 途径 对 操作 数 寻 址 而 且 操作 数 中 有 一 个 必须 在 寄存 器 中 。 
从 逻辑 上 来 说 ，EAX、EBX、ECX、EDX、ESI、EDI、EBP、ESP 中 的 任意 一 个 都 可 以 用 于 
源 操作 数 寄存 器 和 目的 操作 数 寄存 器 ， 但 是 编码 规则 禁止 了 其 中 的 某 些 组 合 而 把 它们 用 于 特 
殊 的 目的 。 某 些 模式 需要 一 个 称 为 SIB (Scale, Index, Base) 的 附加 字 节 ， 它 给 出 了 更 多 的 
说 明 信 息 。 .这 种 策略 并 不 理想 ， 但 是 在 同时 面 对 向 后 兼容 的 竞争 要 求 和 需要 增加 原来 没有 想 
到 的 新 特性 的 要 求 时 ， 这 是 一 个 可 以 接受 的 折衷 方案 。 

除了 以 上 这 些 内 容 之 外 ， 某 些 指令 还 包括 1、2 或 者 4 个 字 节 的 内 存 地 址 ( 偏 移 量 )， 还 
可 能 包括 另外 1、2 或 者 4 个 字 节 的 常量 ( 立即 数 )。 


5.3.4 OMAP4430 ARM CPU 指令 格式 


OMAP4430 ARM 指令 系统 由 16 位 或 32 位 指令 构成 ， 在 内 存 中 是 对 齐 的 。 指 令 相当 简 
单 ， 每 条 指令 定义 一 个 单独 的 操作 。 一 条 典型 的 算术 指令 定义 两 个 寄存 器 存放 源 操作 数 ， 另 
外 还 有 一 个 独立 的 目的 寄存 器 。16 位 指令 是 32 位 指令 的 一 个 简化 版 本 ， 它 们 都 执行 相同 的 
操作 ,但 是 16 位 指令 只 允许 两 个 寄存 器 操作 数 ( 即 目的 寄存 器 必须 与 两 个 输入 寄存 器 之 一 相 
E), HERAA 8 个 寄存 器 能 被 指定 为 输入 寄存 嚣 。ARM 架构 师 将 这 个 简化 版 本 的 ARM 
指令 集 称 为 “拇指 ”指令 集 。 
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附加 的 变化 使 得 指令 能 够 使 用 3、8、12、16 或 24 位 的 无 符号 常量 来 代替 某 一 个 寄存 器 。 
对 加 载 指令 来 说 ， 两 个 寄存 器 (或 一 个 寄存 器 和 一 个 8 位 有 符号 常数 ) 的 值 相 加 可 以 确定 将 
要 加 载 的 内 存 地 址 。 所 读数 据 将 会 被 写 人 另外 一 个 指定 的 寄存 器 中 。 

32 位 ARM 指令 的 格式 说 明 见 图 $S-14。 留 心 的 读者 们 应 该 会 注意 到 一 部 分 不 同类 型 的 指 
令 会 有 相同 的 域 ( 例如 ，LONG MULTIPLY 和 SWAP 指令 )。 在 译 码 过 程 中 ， 译 码 器 直到 判 
别 出 域 的 值 对 MUL 指令 是 非法 的 以 后 才能 确定 该 指令 为 SWAP。 在 扩展 指令 集 和 “拇指 ” 指 
令 集 中 ,还 加 入 了 一 些 其 他 格式 的 指令 。 在 写作 本 书 时 ， 指 令 格式 有 21 种 并 且 还 在 继续 增 
加 中 。( 离 我 们 见识 到 该 公司 以 “世界 上 最 复杂 的 简单 指令 集 计 算 机 ”作为 广告 语 的 日 子 还 远 
吗 ? ) 不 管 怎样 ， 指 令 集中 主要 的 指令 还 在 使 用 如 图 5-14 所 示 的 格式 。 


31 2827 1615 87 0 ”指令 类 别 


KATE means snes 
Parsi [000000 [als|_Ra | en | RS [1001] rm |æ 

atas [00001 foals] Rani | Raro | Rs [1001| Rm | staer 

[anm [00010 fafoo] ra | ra [ooo0|1001| rm | xem 

aem oplos] Rs | Re | me O) rte eo 
anm [0 ofplds e | wreak | mwene 

aem [oo ofelofi foc Rn | ra | We fils RER ees: mam 
anm [oo oflo] en | ra [oooofilsili] Rm | t-rex: amen 
[ol| — we O o oo 

xem [ooo fooro rii ol ma 
anm [iiol] Rn | ora fornon mR — 
Pacers [rio opi | cen | cra [cpm | ope Jo] crm | 声名 数据 所作 
(arm [1110| opt Ji] can | ra [cenom | op [i] crm | intone ecto 
empi s O 软件 中 有 


图 5-14 32 位 ARM 指令 格式 


确定 指令 格式 并 告诉 硬件 接 下 来 要 去 哪里 找 余 下 可 能 还 有 的 操作 码 的 第 一 个 位 置 在 每 条 
指令 的 26 ~ 27 位 上 。 举 例 来 说 ， 如 果 指 令 的 26、27 位 均 为 0，25 位 也 为 0 (操作 数 不 是 一 
个 立即 数 )， 输 入 操作 数 转 换 也 不 是 不 合法 的 (这 表明 该 指令 是 一 个 乘法 或 分 支 转移 指令 )， 
那么 所 有 操作 数 和 立即 数 的 来 源 均 为 寄存 器 。 如 果 25 位 上 是 1， 则 说 明 操 作 数 的 其 中 一 个 来 
源 为 寄存 器 ， 另 外 一 个 来 源 则 为 大 小 在 0 ~ 4095 的 之 间 的 常量 。 在 上 述 两 个 例子 中 ， 目 的 操 
作 数 均 为 一 个 寄存 器 。 充 足 的 编码 空间 总 共 可 以 用 来 编码 16 条 指令 ， 如 今 这 些 指令 已 完全 使 
用 了 。 

在 32 位 指令 的 条 件 下 是 不 可 能 引入 32 位 的 常量 的 。MOVT 指令 可 以 设置 32 位 寄存 器 
的 高 16 位 ， 余 下 低 16 位 由 另外 一 条 指令 设置 。 这 是 唯一 一 条 使 用 这 个 格式 的 指令 。 

每 条 32 位 的 指令 都 有 一 个 在 28 ~ 31 这 4 位 上 的 域 , 这 个 域 称 为 条 件 域 ， 条 件 域 很 重 
要 ， 它 可 以 将 任意 指令 变 为 断言 指令 (predicated instruction )。 断 言 指令 会 像 一 般 指令 一 样 在 
处 理 器 中 被 执行 ， 但 在 其 执行 结果 写 人 寄存 器 (或 内 存 ) 之 前 ， 它 首先 会 检查 指令 的 条 件 是 
否 满足 。 对 ARM 指令 来 说 ， 条 件 域 是 基于 处 理 器 状态 寄存 器 (PSR) 的 。 该 寄存 器 保存 了 上 
一 次 算数 运算 的 属性 ( 例如， 为 0、 为 负 和 溢出 等 )。 如 果 条 件 不 能 够 满足 ， 则 该 断言 指令 的 
执行 结果 将 被 舍弃 。 

分 支 指令 中 所 能 编码 的 立即 数 是 所 有 指令 中 最 大 的 ， 这 是 因为 分 支 指 令 中 需要 运用 该 立 
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即 数 来 计算 出 方法 或 进程 调用 的 目标 地 址 。 这 个 指令 非常 特别 ， 因 为 它 是 唯一 一 个 需要 24 位 
数据 来 指定 某 个 地 址 的 指令 。 这 个 指令 有 一 个 3 位 的 操作 码 ， 其 表示 的 地 址 值 为 真正 的 目的 
地 址 除 以 4 所得， 因此 大 约 可 以 表示 当前 指令 地 址 + 2” 字 节 的 范围 。 

显然 地 ，ARM 指令 集 的 设计 师 们 希望 运用 上 每 一 个 位 的 组 合 ， 包 括 其 他 不 合法 的 操作 数 
的 组 合 来 区 分 指令 。 这 种 做 法 使 得 解码 的 逻辑 异常 复杂 ,但 这 也 使 得 在 给 定 16 位 或 32 位 的 
指令 长 度 下 可 以 编码 更 多 的 操作 。 


5.3.5 ATmega168 AVR 指令 格式 


ATmegal68 有 6 种 简单 的 指令 格式 ， 如 图 5-15 所 示 。 指 令 长 度 可 以 是 2 或 者 4 个 字 节 。 
格式 1 仅仅 包括 一 个 操作 码 和 两 个 操作 数 ， 两 个 操作 数 均 为 指令 的 输入 上 且 其 中 一 个 将 作为 输 
出 。 人 例如， 寄存器 的 加 法 指令 就 使 用 了 这 种 格式 。 


格式 


PETET ALU: 操作 码 (c) Rd, Rr 
ooa | awa | csee | 扩展 ALU: 操作 码 (c) Rd 
ALU+Imm: 操作 码 (c) Rd, #K 
| Qaa | aa | cogo | 加 载 /存储 : Id/st(c) X/Y/Z+Q, Rd 


分 支 : br(c) PC+K 


31 0 


调用 / 跳 转 : call/jmp(c) #K 
图 5-15 ATmegal68 AVR 的 指令 格式 


格式 2 也 是 16 位 ， 由 附加 的 16 个 操作 码 和 一 个 5 位 的 寄存 器 号 组 成 。 这 种 格式 的 指令 
通过 将 指令 的 操作 数 减 少 到 1 个 来 增加 可 编码 到 指令 集中 的 操作 。 编 码 成 该 格式 的 指令 用 来 
表示 读 取 一 个 寄存 器 的 值 并 写 人 到 相同 寄存 器 的 一 元 操作 。 例 如 求 负 和 增加 等 指令 。 

格式 3 有 一 个 8 位 的 无 符号 立即 数 。 为 了 将 如 此 大 的 一 个 立即 数 容 纳 到 16 位 的 指令 
中 ， 使 用 这 种 编码 格式 的 操作 数 只 能 有 一 个 寄存 器 操作 数 ( 作为 输入 和 输出 )， 且 只 能 为 
R16 ~ R31 之 间 的 寄存 器 (这样 可 以 将 操作 数 编码 成 4 位 )。 此 外 操作 码 的 位 数 变 成 了 一 半 ， 
只 能 允许 4 条 指令 使 用 该 格式 来 编码 (SUBCI, SUBI, ORI 以 及 ANDI )。 

格式 4 编码 了 加 载 、 存 储 指 令 。 在 该 指令 中 包括 了 一 个 6 位 的 无 符号 立即 数 。 基 址 寄存 
器 是 由 加 载 、 存 储 指令 指定 的 某 个 确定 的 寄存 器 ， 而 不 用 在 指令 中 进行 指定 。 

格式 5 和 6 是 用 来 编码 跳 转 和 程序 调用 指令 的 。 格 式 5 包 含 了 一 个 12 位 的 有 符号 立即 
数 ， 与 当前 指令 的 PC 值 相 加 后 就 能 算出 跳 转 指令 的 目标 地 址 。 格 式 6 通过 将 AVR 指令 扩展 


a 


SARK 267 





为 32 位 来 将 偏 移 扩展 到 22 位 。 


5.4 Sh 


大 多 数 指令 都 有 操作 数 ， 因 此 需要 一 些 方 法 来 定义 从 哪里 得 到 这 些 操作 数 。 我 们 下 面 就 
开始 讨论 这 个 主题 ， 也 就 是 寻 址 。 


5.4.1 JHAR 


目前 为 止 ， 我们 还 没有 讨论 在 寻找 操作 数 时 如 何 解释 地 址 字段 。 现 在 我 们 就 来 研究 一 下 
这 个 主题 ， 也 称 为 寻 址 方式 (address mode )。 我 们 即将 看 到 ， 有 很 多 种 方式 来 实现 寻 址 。 


5.4.2 ”立即 寻 址 


在 指令 中 定义 操作 数 的 最 简单 的 方式 是 指令 直接 包括 操作 数 本 身 ， 而 不 是 包括 操作 数 地 
址 或 者 其 他 的 描述 操作 数位 置 的 信息 。 这 样 的 操作 数 称 为 立即 数 ， 因 为 它 在 指令 取 指 的 时 候 
就 被 自动 地 从 内 存 中 取出 了 ; 因此 在 使 用 时 它 是 立即 可 以 得 到 的 。 一 条 把 常量 4 存 人 寄存 器 
R1 的 立即 寻 址 指令 如 图 5-16 所 示 。 

立即 寻 址 的 优点 在 于 取 操作 数 时 不 需要 额外 的 内 存 ~ | = | 4 | 
访问 。 它 的 缺点 是 只 有 常数 才能 使 用 这 种 方式 。 另 外 , 数 图 5-16 把 4 存 人 RI 的 立即 寻 址 指令 
的 大 小 要 受 地 址 字段 大 小 的 限制 。 许 多 体系 结构 目前 仍然 使 用 这 种 技术 来 定义 小 的 整 型 常量 。 


5.4.3 ”直接 寻 址 


指定 位 于 内 存 中 的 操作 数 的 一 种 方法 是 给 出 它 的 完整 地 址 。 这 种 方式 称 为 直接 寻 址 
(direct addressing )。 和 立即 寻 址 一 样 ， 在 实际 使 用 中 直接 寻 址 也 有 一 定 的 限制 : 使 用 直接 寻 
址 的 指令 访问 的 永远 是 同一 个 内 存 地 址 。 因 此 当 值 发 生变 化 的 时 候 ， 地 址 不 能 发 生变 化 。 因 
此 直接 寻 址 只 能 用 于 访问 全 局 变量 ， 因 为 全 局 变量 的 地 址 在 编译 阶段 是 已 知 的 。 因 为 有 大 量 
的 程序 使 用 全 局 变量 ， 所 以 目前 这 种 方式 还 是 很 常用 的 。 至 于 计算 机 如 何 区 分 立即 数 寻 址 和 
直接 寻 址 ， 我 们 将 在 后 面 讨论 。 


544 寄存 器 寻 址 


寄存 器 寻 址 在 概念 上 和 直接 寻 址 是 相同 的 ， 只 不 过 它 定义 的 是 寄存 器 地 址 而 不 是 内 存 地 
址 。 由 于 寄存 器 的 重要 性 (访问 速度 快 而 且 地 址 较 短 ) 使 得 这 种 寻 址 方式 成 为 大 多 数 计算 机 
中 最 常用 的 寻 址 方式 。 许 多 编译 带 都 会 尽 最 大 的 努力 找 出 访问 次 数 最 多 的 变量 ( 例如， 一 个 
循环 变量 ) 并 将 它们 放 人 寄存 器 中 。 

这 种 寻 址 方式 就 是 我 们 常 说 的 寄存 器 寻 址 (register mode )。 在 OMAP4430 ARM 这 样 的 
加 载 /存储 体系 结构 中 ， 几 乎 所 有 指令 都 使 用 这 种 寻 址 方式 。 唯 一 例外 的 情况 发 生 在 从 内 存 
中 把 操作 数 取 入 寄存 器 (LDR 指令 ) 和 从 寄存 器 中 把 操作 数 存 人 内 存 (STR 指令 ) 时 。 即 使 
在 这 样 的 指令 中 ， 操 作 数 中 也 会 有 一 个 是 寄存 器 ， 它 是 内 存 字 的 来 源 或 者 目的 地 。 


5.4.5 ”寄存 器 间接 寻 址 
在 这 种 寻 址 方式 中 ， 定 义 的 操作 数 来 自 内 存 或 者 要 去 内 存 ， 但 它 的 地 址 并 不 像 直 接 寻 址 


268 BIF 





那样 直接 写 在 指令 中 。 相 反 ， 它 的 地 址 保存 在 一 个 寄存 器 中 。 我 们 通常 把 这 样 的 地 址 称 为 指 
$t (pointer )。 寄 存 器 间接 寻 址 的 一 个 很 大 的 优点 在 于 它 访问 内 存 时 不 需要 在 指令 中 定义 完整 
的 地 址 。 而 且 在 指令 执行 的 时 候 ， 根 据 寄存 器 内 容 的 不 同 可 以 访问 不 同 的 内 存 字 。 

为 了 帮助 读者 理解 ， 下 面 讨论 为 什么 指令 每 次 执行 时 需要 访问 不 同 的 内 存 字 ， 有 这 样 一 
条 循环 语句 ， 它 把 一 个 1024 个 元 素 的 一 维 数 组 的 元 素 相 加 并 将 和 放 人 R1。 在 循环 之 外 ， 我 
们 让 某 个 其 他 的 寄存 器 ， 比 如 说 R2， 指 向 数组 的 第 一 个 元 素 ; 另 一 个 寄存 器 ， 比 如 说 R3, 
指向 1024 个 数组 元 素 之 后 的 第 一 个 地 址 。 对 于 1024 个 4 字 节 整数 来 说 ， 如 果 数 组 从 A 地 址 
开始 ， 那 么 数组 之 后 的 第 一 个 地 址 就 是 A+4096。 为 一 台 两 地 址 计算 机 编写 的 、 执 行 这 一 累加 
操作 的 典型 的 汇编 语言 代码 如 图 5-17 所 示 。 





MOV R1,#0 ; 累加 和 保存 在 R1 中， 初始 是 0 

MOV R2,#A ;R2 = 数组 A 的 地 址 

MOV R3,#A+4096 ;R3 = 数组 A 之 后 的 第 一 个 字 的 地 址 
ADD R1,(R2) ;通过 R2 进 行 寄存 器 间接 寻 址 取得 铝 作 数 


ADD R2,#4 ; 为 R2 加 一 个 字 (4 个 字 节 ) 
CMP R2,R3 ;做 完了 吗 ? 
BLT LOOP ; 如果 R2 < R3, 说 明 没有 结束 ， 则 继续 





图 5-17 计算 数组 元 素 之 和 的 一 段 普 通 的 汇编 程序 


在 这 一 小 段 程序 中 ， 我 们 同时 使 用 了 多 种 寻 址 方式 。 前 三 条 指令 的 第 一 个 操作 数 ( 目的 
操作 数 ) 使 用 寄存 器 寻 址 ， 而 第 二 个 操作 数 使 用 立即 寻 址 (符号 # 表 示 后 面 是 一 个 常量 )。 第 
二 条 指令 把 A 的 地 址 放 和 人 R2， 而 不 是 把 A 本 身 的 内 容 放 人 R2。 汇 编 器 之 所 以 知道 这 样 做 正 
是 由 于 使 用 了 # 符 号 。 同 样 ， 第 三 条 指令 把 A 数组 之 后 的 第 一 个 元 素 的 地 址 放 入 R3。 

我 们 注意 一 个 有 趣 的 现象 : 在 循环 体 中 没有 使 用 任何 内 存 地 址 。 在 第 四 条 指令 中 使 用 了 
寄存 器 寻 址 和 寄存 器 间接 寻 址 。 第 五 条 指令 使 用 了 寄存 器 寻 址 和 立即 寻 址 ， 而 第 六 条 指令 使 
用 了 两 次 寄存 器 寻 址 。BLT 指令 可 能 使 用 了 内 存 地 址 ， 但 是 更 常见 的 做 法 是 用 相对 BLT 指 
令 本 身 的 8 位 偏 移 量 作为 跳 转 地 址 。 由 于 彻底 避免 了 对 内 存 进 行 寻 址 ， 我 们 实现 了 一 个 既 
短 又 快 的 循环 。 顺 便 说 一 句 ， 这 段 程序 其 实 是 为 Core i7 编写 的 ， 只 不 过 我 们 重新 命名 了 指 
令 和 寄存 器 并 改变 了 符号 表示 ， 这 是 为 了 使 它 更 容易 读 ， 因 为 Core i7 的 标准 汇编 语言 语法 
(MASM ) 由 于 保持 了 它 的 前 辈 (如 8088 ) 的 特点 而 让 人 难以 理解 。 

虽然 下 面 的 做 法 不 值得 推荐 ， 但 在 理论 上 ， 还 有 一 种 方法 在 不 采用 寄存 器 间接 寻 址 的 条 
件 下 执行 该 循环 。 循 环 可 以 包括 一 条 把 A 加 到 RI 中 的 指令 ， 如 : 

ADD R1,A 
在 循环 过 程 的 每 一 次 迭代 中 ， 指 令 本 身 应 该 加 4， 这 样 在 执行 一 次 循环 之 后 它 应 该 执行 : 

ADD R1,A+4 
这 样 重 复 执 行 直到 计算 出 结果 。 

像 这 样 能 够 修改 指令 本 身 的 程序 我 们 称 为 自修 改 程序 ( selfmodifying program), #844 
这 个 主意 的 不 是 别人 ， 正 是 冯 “' 诺 伊 曼 。 这 一 思想 体现 在 早期 的 计算 机 中 ， 因 此 早期 的 计算 
机 不 采用 寄存 器 间接 寻 址 。 现 在 自修 改 程序 被 认为 是 一 种 可 怕 的 程序 ， 它 让 人 难以 理解 。 而 
且 它 不 能 同时 被 多 个 进程 共享 。 此 外 ， 在 带 有 分 离 式 的 第 一 级 cache 的 计算 机 中 ， 如 果 指 令 
cache 不 周期 性 地 执行 写 回 操 作 ， 自 修改 程序 就 不 能 正确 运行 ( 因为 计算 机 的 设计 者 假定 程序 


是 不 能 修改 自身 的 )。 最 后 ， 自 修改 程序 也 不 能 用 于 指令 内 存 与 数据 内 存 分 离 的 计算 机 上 。 综 
上 所 述 ， 这 个 想法 最 终 (幸运 地 ) RAFT. 


5.4.6” 变 址 寻 址 


如 果 能 够 利用 一 个 寄存 器 和 一 个 已 知 的 偏 移 量 来 访问 内 存 ， 将 对 我 们 有 很 大 的 帮助 。 在 
VM 中 我 们 已 经 看 到 了 一 些 例 子 ，UJVM 中 局 部 变量 的 访问 是 通过 给 定 它们 相对 于 LV 的 偏 
移 量 来 进行 的 。 通 过 一 个 给 定 的 寄存 器 ( 显 式 或 者 隐 式 ) 加 上 一 个 常数 偏 移 量 来 进行 内 存 寻 
址 的 方式 称 为 变 址 寻 址 (indexed addressing )。 

从 图 4-19a 中 可 以 看 出 ,在 IJVM 中 局 部 变量 的 访问 是 通过 使 用 寄存 器 中 的 内 存 指针 
(LV ) 加 上 指令 中 的 小 偏 移 量 来 进行 。 当 然 ， 也 可 以 采用 另 一 种 方式 : 把 内 存 指针 放 在 指令 
中 而 把 小 偏 移 量 放 在 寄存 器 中 。 为 了 搞 清 楚 它 是 怎么 工作 的 ， 让 我 们 看 下 面 的 计算 过 程 。 我 
们 有 两 个 各 有 1024 个 字 的 一 维 数组 ， 分 别 为 4 和 B。 我 们 希望 对 所 有 1024 个 元 素 对 计算 A; 
AND B;， 然 后 再 把 这 1024 个 布尔 值 的 结果 相 或 ， 这 样 我 们 就 可 以 知道 在 这 1024 对 元 素 中 是 
否 至 少 存在 一 个 非 0 对 。 一 种 方案 是 把 4 的 地 址 放 到 一 个 寄存 器 中 ,把 B 的 地 址 放 到 男 一 个 
寄存 器 中 ， 然 后 一 步 一 步 地 执行 ， 类 似 于 图 5-17。 这 种 方案 当然 是 可 行 的 ,但 是 如 果 我 们 采 
用 图 5-18 中 的 方案 ， 效 果 会 更 好 。 











MOV R1,#0 ;R， 中 OR 操作 的 结果 ， 初 始 值 为 0 
MOV R2,#0 ; R2 等 于 当前 计算 AND ( ALG] AND BLi]) 的 数组 元 素 的 索引 
MOV R3,#4096 ; R3 等 于 未 使 用 的 第 一 个 索引 值 
LOOP: MOV R4,A(R2) ; R4 = ALi 
AND R4,B(R2) ;R4 = ALi] AND BLi] 
OR R1,R4 ; OR 所 有 的 AND 结 果 并 存 入 R1 
ADD R2,#4 ;i 二 1 十 4( 以 字 为 单元 计算 ， 一 个 字 等 于 4 个 字 节 ) 
CMP R2,R3 ;做 完了 吗 ? 
BLT LOOP ; 如 果 R2《 R3， 表 示 还 没有 结束 ， 继 续 。 








图 5-18 计算 两 个 1024 个 元 素 的 数组 4 和 2B 的 OR(A, AND B) 的 汇编 语言 程序 


这 段 程序 执行 的 操作 是 简单 明了 的 。 我 们 使 用 了 4 个 寄存 器 : 

1) R1 一 一 用 于 保存 每 次 OR 操作 的 结果 ; 

2) R2 一 一 保存 索引 值 ;， 用 于 遍历 整个 数组 ; 

3 ) R3 一 一 保存 常量 4096， 这 是 索引 值 i 不 能 使 用 的 最 小 值 ; 

4) R4 一 一 保存 每 次 AND 结果 的 临时 寄存 器 。 

在 初始 化 寄存 器 之 后 ， 是 一 个 6 条 指令 的 循环 。 在 LOOP 标号 处 的 指令 把 4; 取 到 R4 中 。 
在 这 里 ， 源 操作 数 的 计算 使 用 变 址 寻 址 方式 。 寄 存 器 R2 和 4 的 地 址 这 一 常量 相 加 的 结果 被 
用 于 访问 内 存 。 虽 然 我 们 使 用 两 个 数 的 和 访问 内 存 ， 但 是 这 个 和 没有 保存 在 任何 用 户 可 见 的 
寄存 器 中 。 下 式 

MOV R4,A(R2) 
表示 目的 操作 数 采 用 寄存 器 寻 址 ，R4 是 目的 寄存 器 ， 源 操作 数 采用 变 址 寻 址 方式 ，4 是 偏 
移 量 ，R2 是 寄存 器 。 假 设 A 的 值 是 124300， 那 
么 这 条 指令 的 实际 机 器 指令 可 能 如 图 5-19 [ Mov | R | R | 124300 | 


所 示 。 图 5-19 MOV R4, A(R2) 的 一 种 可 能 的 表示 法 
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在 第 一 次 进入 循环 的 时 候 ，R2 的 值 是 0 ( 刚刚 进行 过 初始 化 )， 这 样 访问 的 内 存 字 就 是 
位 于 124300 的 Aoo Ao 的 值 就 会 被 取信 R4。 第 二 次 进入 循环 的 时 候 ，R2 是 4， 这 时 访问 的 内 
存 字 就 是 位 于 地 址 124304 的 4 ， 下 面 依 此 类 推 。 

就 像 我 们 前 面 所 希望 的 那样 ， 在 这 里 指令 中 存放 的 偏 移 量 是 内 存 指针 而 寄存 器 中 的 值 是 
一 个 用 于 循环 执行 计算 的 小 整数 。 这 种 形式 需要 在 指令 中 有 足够 的 偏 移 量 空间 来 存放 地 址 ， 
当然 这 样 做 的 效率 会 比 另 一 种 方式 低 ， 但 是 通常 来 说 这 种 方式 更 有 效 。 


5.4.7” 基 址 变 址 寻 址 


某 些 计算 机 有 这 样 一 种 寻 址 方式 ， 它 用 两 个 寄存 器 和 一 个 偏 移 量 ( 可 选 ) 相 加 的 结果 来 
进行 寻 址 。 有 时 这 种 方式 称 为 基 址 变 址 寻 址 ( based-indexed addressing )。 其 中 一 个 寄存 器 存 
放 基 地 址 ， 另 一 个 寄存 器 存放 变 址 。 这 样 一 种 寻 址 方式 是 很 有 用 的 。 我 们 可 以 在 循环 之 外 把 
A 的 地 址 放 到 Rs 中 而 把 B 的 地 址 放 到 R6 中 。 然 后 把 LOOP 标号 处 的 指令 和 它 的 下 一 条 指令 
替换 成 : 


LOOP: MOV R4,(R2+R5) 
AND R4,(R2+R6) 


如 果 有 一 种 寻 址 方式 能 够 通过 不 带 偏 移 量 的 两 个 寄存 器 的 和 来 寻 址 就 更 理想 了 。 作 为 男 一 种 
选择 ， 即 使 一 条 带 8 位 偏 移 量 的 指令 也 会 对 我 们 有 所 帮助 ， 因 为 我 们 可 以 把 偏 移 量 设 成 0。 
当然 ， 如 果 偏 移 量 永远 是 32 位 ， 那 么 使 用 这 种 模式 并 不 能 给 我 们 带 来 什么 好 处 。 而 实际 使 用 
这 种 模式 的 计算 机 往往 采用 8 位 或 者 16 位 的 偏 移 量 。 


5.4.8 eat 


我 们 已 经 注意 到 设计 人 员 总 是 希望 把 计算 机 指令 设计 得 尽 可 能 短 。 使 地 址 长 度 达到 最 短 
的 极端 情况 是 干脆 没有 地 址 。 正 如 我 们 在 第 4 章 中 看 到 的 那样 ， 像 IADD 这 样 的 零 地 址 指令 
和 栈 配 合 使 用 是 完全 可 行 的 。 在 本 节 中 ， 我 们 将 详细 讨论 栈 寻 址 方式 。 

1. HRA RIAN 

在 数学 中 ， 把 操作 符 放 在 操作 数 之 间 是 一 个 古老 的 传统 ， 比 如 x+ty， 而 不 是 把 操作 符 放 
在 操作 数 之 后 ， 比 如 x y+。 这 种 操作 符 位 于 操作 数 之 间 的 形式 称 为 中 缀 (infix) 表达 式 ， 而 
操作 符 位 于 操作 数 之 后 的 形式 称 为 后 缀 (postfix) 表达 式 或 者 逆 波 兰 ( reverse Polish notation ) 
表达 式 。 波 兰 逻 辑 学 家 J.Lukasiewicz (1958) 首先 研究 了 这 种 表达 式 的 性 质 。 

道 波兰 表达 式 和 中 缀 表达 式 相 比 在 表示 代数 式 方面 有 几 个 优点 。 首 先 ， 任 何 代数 式 都 可 
以 用 没有 插 号 的 形式 表示 。 其 次 ， 在 计算 机 中 使 用 栈 计算 代数 式 的 值 时 使 用 道 波兰 式 相当 方 
便 。 第 三 ， 中 缀 操作 符 有 优先 级 ， 这 一 点 既 专 横 又 不 受 欢迎 。 比 如 ， 我们 知道 ax bte 表示 
(ax bje 而 不 是 a x (b+) 因为 乘法 具有 比 加 法 更 高 的 优先 级 。 但 是 有 谁 知道 左 移 操作 的 优先 
级 和 布尔 操作 AND 的 优先 级 谁 更 高 呢 ?” 而 逆 波 兰 表 达 式 使 我 们 摆脱 了 这 种 麻烦 。 

有 几 个 算法 可 以 把 中 缀 表达 式 转换 成 道 波兰 表达 式 。 下 面 给 出 的 算法 是 E.W.Dijkstra 
设计 的 ， 我 们 做 了 一 定 的 修改 。 假 定 一 个 表达 式 由 下 列 符号 组 成 : 变量 、 双 操作 数 的 操作 
符 + - x /和 左右 括号 。 为 了 标识 一 个 表达 式 的 结尾 ,我 们 在 一 个 表达 式 的 最 后 一 个 符号 之 后 
和 下 一 个 表达 式 的 第 一 个 符号 之 前 插入 了 符号 上 。 
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在 图 5-20 中 有 一 条 从 纽约 到 加 利 福 尼 亚 的 铁路 线 ， 中 间 有 一 条 通 往 德 克 萨 斯 的 支线 。 名 
字 和 方向 不 重要 ， 重 要 的 是 铁路 主线 和 支线 之 间 的 距离 。 表 达 式 中 的 每 一 个 符号 都 用 一 他 车 
厢 来 表示 。 火 车 从 东 向 西 开 (从 右 向 左 )。 当 每 节 车 厢 到 达 中 转 站 时 ， 它 必须 停 下 来 询问 是 直 
接 去 加 利 福 尼 亚 还 是 去 德 克 萨 斯 作 一 次 旅行 。 变 量 乘坐 的 车 厢 总 是 直接 开 往 加 利 福 尼 亚 而 肯 
定 不 去 德 克 萨 斯 。 其 他 符号 乘坐 的 车 厢 在 进入 中 转 站 之 前 必须 首先 询问 德 克 萨 斯 支线 上 离 自 
己 最 近 的 车 厢 里 的 乘客 来 决定 自己 将 开 往 哪里 。 


加 利 福 尼 亚 





德 克 萨 斯 
加 | 
图 5-20 ”每 节 车 厢 表 示 公 式 中 的 一 个 符号 ， 该 公式 将 从 中 缀 表达 式 转换 成 后 缘 表 达 式 


根据 德 克 萨 斯 支线 上 离 中 转 站 最 近 的 车 厢 和 停 在 中 转 站 的 车 厢 的 情况 ， 图 5-21 显示 了 发 
生 了 什么 事 。 第 一 个 上 车 厅 总 是 开 往 德 克 萨 斯 的 。 图 中 的 中 转 站 的 车 末 
数字 分 别 代表 以 下 各 种 情况 : 

1 ) 中 转 站 的 车 厢 开 往 德 克 萨 斯 。 

2 ) 德 克 萨 斯 支线 上 离 中 转 站 最 近 的 车 厢 调 头 开 往 加 利 
福 尼 亚 。 

3 ) 停 在 中 转 站 的 车 厢 和 德 克 萨 斯 支线 上 离 中 转 站 最 近 
的 车 厢 被 劫持 并 且 消 失 了 (也 就 是 同时 被 删除 了 )。 

4) 停止 。 这 时 按 从 左 到 右 的 方向 看 停 在 加 利 福 尼 亚 的 
FRC BALM TER RIK 5-21 ”中 绥 式 转换 成 逆 波 兰 式 算法 

5) 停止 。 发 生 了 错误 。 初 始 的 表达 式 不 能 被 正确 中 用 到 的 决策 表 
转换 。 

在 每 次 操作 之 后 ， 必 须 再 一 次 对 中 转 站 的 车 厢 (可 能 还 是 上 一 次 比较 时 的 车 厢 或 者 是 下 
一 节 车 厢 ) 和 德 克 萨 斯 支线 上 离 中 转 站 最 近 的 车 厢 进 行 比较 。 这 个 过 程 将 反复 进行 直到 到 达 
第 4 种 情况 。 我 们 注意 到 德 克 萨 斯 支线 实际 上 被 当 作 栈 使 用 ， 当 我 们 让 一 节 车 厢 开 往 德 克 萨 
斯 时 实际 上 就 是 执行 了 人 栈 操作 ， 当 我 们 让 一 节 德 克 萨 斯 支线 上 的 车 厢 调 头 开 往 加 利 福 尼 亚 
时 实际 上 是 执行 了 出 栈 操作 。 

中 缀 表达 式 和 逆 波 兰 表达 式 的 变量 顺序 是 相同 的 ， 但 操作 符 的 顺序 不 一 定 相同 。 逆 波兰 
表达 式 中 操作 符 是 按照 表达 式 求 值 时 操作 符 执行 的 顺序 排列 的 。 图 5-22 给 出 了 中 组 表达 式 和 
对 应 的 道 波兰 表达 式 的 例子 。 





PA 最 近 到 达 德 克 萨 斯 支线 的 车 着 
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图 5-22 HEME BER A BP Be HAA i ER 





2. 逆 波 兰 表 达 式 求 值 

道 波兰 表达 式 是 带 栈 的 计算 机 进行 表达 式 求 值 的 理想 的 方法 。 表 达 式 由 nn 个 符号 组 成 ， 
每 个 符号 不 是 操作 数 就 是 操作 符 。 使 用 栈 的 逆 波 兰 表达 式 求 值 算法 是 相当 简单 的 。 只 需要 从 
左 到 右 扫 描 逆 波兰 表达 式 串 ， 遇 到 操作 数 时 就 把 它 和 人 栈 ， 直 到 操作 符 时 就 执行 相应 的 操作 。 

在 IJVM 中 对 表达 式 

(8+2Xx5)/(1+3X2-4) 
的 求 值 过 程 如 图 5-23 Aras. AANA ASCE: 

825*+132x*+4-/ 
我 们 已 经 介绍 过 ， 图 5-22 中 使 用 的 IMUL 和 IDIV 指令 分 别 表 示 乘 法 和 除法 。 栈 顶 的 操作 数 
是 右 操作 数 而 不 是 左 操作 数 。 这 一 点 对 于 除法 和 减法 操作 来 说 很 重要 ， 因 为 除法 和 减法 操作 
与 乘法 和 加 法 不 一 样 ， 它 们 的 操作 数 顺序 很 重要 。 换 句 话 说， 必须 仔细 设计 IDIV， 以 便 在 先 
人 栈 分 子 ， 后 人 栈 分 母 的 情况 下 能 够 得 到 正确 的 计算 结果 。 值 得 注意 的 是 在 IVM 中 根据 逆 
波兰 表达 式 生成 代码 是 相当 容易 的 : 只 需要 扫描 表达 式 然 后 根据 符号 生成 指令 。 如 果 符 号 是 
常量 或 者 变量 ， 就 生成 一 条 和 人 栈 指令 。 如 果 符 号 是 操作 符 ， 就 生成 一 条 执行 此 操作 的 指令 。 





2 
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图 $-23 ”使 用 栈 对 道 波兰 表达 式 求 值 






5.4.9 ”转移 指令 的 寻 址 方式 
AAT Ak, 我 们 讨论 的 都 是 操作 数据 的 指令 。 转 移 指令 和 过 程 调用 指令 也 需要 寻 址 方式 
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来 指定 目标 地 址 。 我 们 前 面 讨论 过 的 寻 址 方式 大 部 分 都 可 以 用 于 转移 指令 。 直 接 寻 址 当然 是 
可 行 的 ， 只 要 把 整个 目标 地 址 放 在 指令 中 就 可 以 了 。 

当然 ， 也 可 以 使 用 其 他 的 寻 址 方式 。 寄 存 器 间接 寻 址 可 以 允许 程序 在 运行 时 计算 出 目标 
地 址 ， 然 后 把 它 放 人 寄存 器 中 ， 再 跳 转 到 目标 地 址 处 。 这 种 方式 具有 最 大 的 灵活 性 ， 因 为 可 
以 在 程序 运行 时 计算 目标 地 址 。 当 然 ， 它 也 增 大 了 程序 出 现 错误 的 可 能 性 ， 而 且 这 种 错误 很 
难 发 现 。 

另 一 种 可 用 的 寻 址 方式 是 变 址 寻 址 ， 它 用 寄存 器 和 已 知 的 偏 移 量 来 计算 目标 地 址 。 它 具 
有 和 寄存 器 间接 寻 址 一 样 的 特点 。 

还 有 一 种 选择 是 程序 计数 器 相对 寻 址 。 在 这 种 方式 中 ， 把 指令 中 带 符 号 的 偏 移 量 加 到 程 
序 计 数 器 上 来 得 到 目标 地 址 。 实 际 上 ， 这 就 是 变 址 寻 址 ， 只 不 过 使 用 的 寄存 器 是 程序 计数 器 
而 已 。 


5.4.10 ”操作 码 和 寻 址 方式 的 关系 


从 软件 的 观点 来 看 ， 指 令 和 地 址 应 该 是 有 规律 的 结构 ， 这 样 指令 格式 可 以 达到 最 少 。 这 
样 一 种 结构 可 以 使 编译 器 更 容易 编译 出 高 质量 的 代码 。 应 该 允许 所 有 的 操作 码 使 用 所 有 有 意 
义 的 寻 址 方式 。 此 外 ,在 所 有 的 寄存 器 寻 址 方式 中 都 应 该 允许 使 用 所 有 的 寄存 器 ( 包括 段 指 
针 ( FP )、 栈 指针 (SP) 和 程序 计数 器 (PC ) )。 

举 一 个 为 三 地 址 计算 机 设计 的 简明 的 例子 ， 请 看 图 5-24 中 的 32 位 指令 格式 。 在 该 设计 
中 最 多 可 以 支持 256 个 操作 码 。 格 式 1 中 ， 每 条 指令 都 有 两 个 源 寄 存 器 和 一 个 目的 寄存 器 。 
所 有 的 算术 和 逻辑 指令 都 使 用 这 种 格式 。 


位 数 8 1 5 5 5 8 
1| aew Ol 目的 寄存 器 | 源 寄 存 器 | 源 寄 在 器 | | 
2 操作 码 |1| 目 的 寄存 器 | 源 寄存 器 偏 移 量 
3 操作 码 偏 移 量 


图 5-24 一 台 简 单 的 三 地 址 计算 机 的 指令 格式 设计 


指令 格式 的 最 后 8 位 没有 使 用 ， 它 们 用 于 区 分 更 多 的 指令 。 比 如 说 ， 只 要 我 们 用 这 额外 
的 8 位 来 区 分 ， 就 可 以 用 一 个 操作 码 处 理 所 有 的 浮 点 数 操作 。 另 外 ， 如 果 第 23 位 置 为 1， 指 
令 将 使 用 格式 2， 而 且 第 二 个 操作 数 也 不 再 是 寄存 器 而 是 一 个 13 位 的 带 符号 立即 数 。LOAD 
和 STORE 指令 就 是 使 用 这 种 指令 格式 用 变 址 寻 址 来 访问 内 存 地 址 。 

除 此 之 外 ， 我 们 还 需要 一 些 额 外 的 指令 ， 比 如 条 件 转移 等 。 我 们 发 现 指令 格式 3 很 适合 
它们 。 比 如 说 ， 可 以 把 操作 码 分 配给 每 条 (条件 ) 转移 指令 和 过 程 调用 指令 等 。 剩 下 的 24 位 
用 于 存放 相对 于 程序 计数 器 (PC ) 的 偏 移 量 。 如 果 偏 移 量 用 字 计 算 , 范围 将 是 +32MB。 另 
外 ,格式 3 中 的 一 些 操 作 码 被 保留 ， 用 于 需要 大 偏 移 量 的 LOAD 和 STORE 指令 。 这 些 指令 
肯定 不 会 很 通用 ( 比如 说 ,在 LOAD 和 STORE 时 只 能 使 用 R0 )， 实 际 上 ， 它 们 很 少 被 使 用 。 

现在 考虑 一 台 两 地 址 计算 机 的 设计 ， 它 的 每 个 操作 数 都 可 以 使 用 内 存 字 。 如 图 5-25 所 
示 ， 这 样 的 计算 机 可 以 把 内 存 字 加 到 寄存 器 中 、 寄 存 器 加 到 内 存 字 中 、 寄 存 器 加 到 寄存 器 中 
以 及 内 存 字 加 到 内 存 字 中 。 目 前 内 存 访问 相当 费时 间 ， 因 此 这 样 的 设计 并 不 很 流行 ， 但 是 如 
果 将 来 高 速 缓存 或 者 内 存 技术 的 发 展 使 内 存 访问 很 容易 ， 这 将 是 一 种 编译 起 来 相当 容易 、 效 
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率 很 高 的 设计 。PDP-11 和 VAX 是 非常 成 功 的 计算 机 ， 统 治 了 小 型 机 领域 二 十 年 ， 它 们 就 采 
用 了 类 似 的 设计 。 
位 数 8 3 5 4 3 5 4 





人 F 
: (可 选 的 32 位 直接 地 址 或 偏 移 量 ) ! 


bom es as ee ee ee em aD ee as aD <D am ams a 9 i em a es ee te moe amon en aa aS O a nt ee a os op eal 


图 5-25 一 台 简 单 的 两 地 址 计算 机 的 指令 格式 设计 


在 此 设计 中 ， 我 们 再 次 使 用 了 8 位 操作 码 ， 但 现在 我 们 用 12 位 定义 源 操作 数 ， 另 12 位 
定义 目的 操作 数 。 对 每 个 操作 数 来 说 ，3 位 定义 寻 址 方式 ，5 位 定义 寄存 器 ， 另外 4 位 给 出 信 
移 量 。 在 3 位 寻 址 方式 位 中 ,我 们 可 以 支持 立即 寻 址 、 直 接 寻 址 、 寄 存 器 寻 址 、 寄 存 器 间接 
寻 址 、 变 址 寻 址 和 栈 寻 址 等 寻 址 方式 ， 除 此 之 外 ， 还 有 两 种 没 用 到 的 方式 用 于 将 来 扩展 使 用 。 
这 种 清晰 而 且 有 规律 的 设计 很 容易 编译 而 且 具 有 很 大 的 灵活 性 ,特别 是 当 程 序 计数 器 、 栈 指 

E 针 和 局 部 变量 指针 都 是 通用 寄存 器 时 更 是 这 样 。 

这 种 设计 中 唯一 的 问题 是 在 直接 寻 址 方式 中 没 用 足够 的 地 址 位 。 为 了 解决 这 一 问题 ， 
PDP-11 和 VAX 中 在 这 样 的 指令 后 面 加 一 个 额外 的 字 来 定义 直接 寻 址 操作 数 的 地 址 。 我 们 也 
可 以 在 使 用 两 种 变 址 寻 址 方式 时 在 指令 后 面 跟 上 32 位 的 偏 移 量 。 也 就 是 说 ， 在 最 坏 的 情况 
下 ， 两 个 操作 数 都 使 用 直接 寻 址 或 者 长 偏 移 量 的 变 址 寻 址 的 内 存 到 内 存 的 加 法 操作 指令 ， 访 
指令 将 有 96 位 长 ， 取 指 时 要 用 三 个 总 线 周期 ( 一 个 用 于 指令 ， 另 两 个 用 于 数据 )。 从 另 一 方 
面 来 说 ， 大 多 数 RISC 的 设计 在 实现 把 内 存 中 的 任意 数 加 到 内 存 中 的 另 一 个 数 中 的 时 候 ， 至 少 
需要 96 位 ， 可 能 还 会 更 多 而 且 取 指 时 需要 至 少 4 个 总 线 周期 ， 取 决 于 操作 数 是 如 何 寻 址 的 。 

在 图 5-25 的 设计 中 ,我 们 可 以 有 很 大 的 选择 余地 ， 可 以 用 一条 32 位 指令 执行 

I=]; 

这 样 的 语句 ， 只 要 i 和 j 都 在 前 16 个 局 部 变量 的 范围 内 。 但 是 如 果 变 量 超出 了 前 16 个 的 范 
围 ， 我 们 将 不 得 不 使 用 32 位 的 偏 移 量 。 一 种 选择 方案 是 使 用 带 8 位 偏 移 量 的 格式 来 代替 使 用 
两 个 4 位 偏 移 量 的 格式 ， 再 加 上 一 条 规则 说 明 源 操作 数 和 目的 操作 数 中 可 以 有 一 个 使 用 8 位 
偏 移 量 但 不 能 同时 使 用 。 这 种 可 能 性 和 折 囊 的 处 理 方式 是 无 限 的 ， 因 此 计算 机 的 设计 者 必须 
巧妙 地 处 理 许多 因素 以 期 得 到 最 好 的 结果 。 


5.4.11 Core i7 的 寻 址 方式 


Core i7 的 寻 址 方式 非常 没有 规律 ， 而 且 根据 指令 的 模式 不 同 而 不 同 (16 位 模式 、32 位 
模式 或 64 位 模式 )。 下面 我 们 将 忽略 16 位 和 64 位 模式 ， 因 为 32 位 模式 就 已 经 够 粳 糕 了 。 
Core i7 支持 的 寻 址 方式 包括 立即 寻 址 、 直 接 寻 址 、 寄 存 器 寻 址 、 寄 存 器 间接 寻 址 、 变 址 寻 址 
和 用 于 寻 址 数组 元 素 的 特殊 寻 址 方式 。 问 题 在 于 并 不 是 所 有 的 方式 都 能 用 于 所 有 的 指令 而 且 
并 不 是 所 有 的 寄存 器 都 能 用 于 所 有 的 方式 。 这 使 编译 器 的 设计 者 的 工作 更 加 困难 而 且 导 致 编 
译 产生 的 代码 质量 比较 差 。 

图 5-13 中 的 方式 字 节 ( MODE ) 控制 寻 址 方式 。 一 个 操作 数 通过 MOD 和 R/M 字段 的 组 
合 来 定义 。 另 一 个 操作 数 总 是 寄存 器 ， 它 的 值 由 REG 字段 给 出 。2 位 的 MOD 字段 和 3 位 的 
RM 字段 一 共有 32 种 组 合 方式 ， 如 图 5-26 所 示 。 比 如 说 ， 如 果 两 个 字段 都 是 0， 将 从 EAX 

寄存 器 中 的 内 存 地 址 取 操 作 数 。 
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ee 
| RIM | 
| MIEAX + OFFSETS] | M(EAX + OFFSET32] | 


| 000 | M(EAX] | M[EAX+OFFSET8] | M[EAX + OFFSET32] | EAX 
| 001 | M[ECX] | M[ECX+OFFSET8] | M[ECX + OFFSET32] | ECX or CL 





图 5-26 Core i7 的 32 位 地 址 模式 。M[x] 表示 x 处 的 内 存 字 


01 列 和 10 列 中 使 用 的 方式 是 用 指令 中 的 8 位 或 者 32 位 偏 移 量 加 上 一 个 寄存 器 的 值 进行 
寻 址 。 如 果 使 用 8 位 偏 移 量 ， 那 么 在 执行 加 法 操作 之 前 首先 要 把 符号 扩展 到 32 位 。 举 例 来 
说 , 一 条 ADD 指令 , R/M = 011, MOD = 01， 偏 移 量 是 6， 执行 时 计算 寄存 器 EBX 和 6 的 和 ， 
用 这 个 值 到 内 存 中 去 寻 址 一 个 操作 数 ， 而 EBX 本 身 的 值 并 没有 被 改动 。 

MOD = 11 的 列 可 以 选择 使 用 两 个 寄存 器 中 的 一 个 。 字 指令 使 用 第 一 种 选择 ， 而 字 节 指令 
使 用 第 二 种 选择 。 可 以 看 出 这 张 表 并 不 是 特别 有 规律 ， 比 如 说 我 们 没有 办 法 通过 寄存 器 EBP 
进行 间接 寻 址 ， 也 没有 办 法 给 ESP 加 上 偏 移 量 。 

在 MODE 字 节 后 面 是 一 个 称 为 SIB (Scale, Index, Base) 的 额外 的 模式 字 节 (参见 
图 5-14 )。SIB 字 节 定义 了 一 个 比例 因子 (Scale) 和 两 个 寄存 器 。 当 出 现 SIB 字 节 的 时 候 ， 需 
要 这 样 计算 操作 数 的 地 址 ， 先 用 变 址 寄存 器 (Index) FEE 1、2、4 或 者 8 (由 比例 因子 决定 )， 
然后 再 加 上 基 址 寄存 器 ( Base )， 最 好 再 根据 MOD 字 节 来 决定 是 否 要 加 上 一 个 8 位 或 者 
32 位 的 偏 移 量 。 几 乎 所 有 的 寄存 器 都 可 以 作为 变 址 和 基 址 寄存 器 。 

SIB 模式 在 访问 数组 元 素 时 是 相当 有 用 的 。 比 如 说 ， 有 这 样 一 条 Java 语句 

for (i = 0; i < n; i++) afi] = 0; 

这 里 a 是 当前 过 程 使 用 的 局 部 的 4 字 节 整数 的 数组 。 典 型 的 方法 是 这 样 ，EBP 指向 保存 着 局 
部 变量 和 数组 的 栈 段 的 基地 址 ， 如 
图 5-27 所 示 。 编 译 器 可 以 把 i 保存 在 
EAX "F. XT Ù ali, A E tE JH SIB 
模式 ， 操 作 数 的 地 址 是 4xEAX、EBP 


i 在 EAX 中 
和 8 这 三 者 之 和 。 这 样 我 们 可 以 用 一 条 
指令 保存 一 个 a[i]。 Be ra +8] 


使 用 这 么 麻烦 的 模式 值得 么 ”这 个 
问题 很 难 回 答 。 红 庸 置疑 的 是 ， 当 正确 
使 用 这 条 指令 时 ， 可 以 节约 一 些 指令 周 
期 。 它 的 使 用 频 度 取决 于 编译 器 和 具体 
应 用 。 问 题 在 于 这 条 指令 占据 了 可 观 的 
芯片 面积 ， 而 如 果 没 有 这 条 指令 ， 这 部 
分 面积 可 以 用 在 其 他 的 地 方 。 比 如 说 ， 可 以 把 第 一 级 cache 做 得 大 一 些 ， 或 者 芯片 本 身 可 以 
做 得 小 一 些 ， 这 样 可 能 会 使 时 钟 频率 更 快 。 





图 5-27 访问 afi] 
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设计 者 经 常 要 面 对 各 种 矛盾 。 一 般 来 说 ， 在 把 任何 东西 做 人 芯片 之 前 都 要 进行 大 量 的 模 


拟 ， 而 这 些 模 拟 工作 需要 对 工作 负载 情况 进行 正确 的 估计 。8088 的 设计 者 们 在 他 们 的 测试 集 


中 没有 包括 Web 浏览 器 是 可 以 理解 的 。 然 而 ， 大 量 的 8088 的 后 代 计 算 机 现在 主要 用 于 Web 
冲浪 ， 因 此 20 年 前 作出 的 决定 对 于 现在 的 应 用 来 说 可 能 是 完全 错误 的 。 然 而 ， 在 向 后 兼容 的 
旗号 下 ,一 旦 决定 采用 某 种 特性 ， 就 不 可 能 再 握 弃 它 。 


5.4.12 OMAP4430 ARM CPU 的 寻 址 方式 


在 OMAP4430 的 指令 系统 层 中 ， 除 了 对 内 存 进行 寻 址 的 指令 外 ， 所 有 的 指令 都 使 用 立即 寻 址 
方式 和 寄存 器 寻 址 方式 。 寄 存 器 寻 址 方式 中 ， 有 5 位 用 于 说 明 使 用 哪个 寄存 器 。 立 即 寻 址 方式 中 ， 
一 个 无 符号 的 12 位 常量 提供 了 立即 数 。 算 术 、 逻 辑 和 其 他 类 似 的 指令 不 使 用 任何 其 他 的 寻 址 方式 。 

有 两 种 直接 寻 址 内 存 的 指令 : M (LDR) 和 储存 (STR). LDR 和 STR 都 有 三 种 寻 址 
内 存 的 模式 。 第 一 种 模式 计算 两 个 寄存 器 的 和 ， 然 后 通过 它 进 行 间接 寻 址 。 第 二 种 模式 计算 
基 址 寄存 器 和 一 个 13 位 有 符号 偏 移 量 来 作为 地 址 。 第 三 种 模式 则 是 计算 程序 计数 器 (PC ) 
加 上 一 个 13 位 有 符号 偏 移 量 来 作为 地 址 。 第 三 种 寻 址 模式 称 为 PC 相对 寻 址 ， 在 读 取 储存 在 
程序 代码 中 的 程序 常量 时 候 非 常 实 用 。 


5.4.13 ATmega168 AVR 的 寻 址 方式 


ATmegal68 具有 相当 有 规律 的 寻 址 结构 ， 有 四 种 基本 的 寻 址 方式 。 第 一 种 是 寄存 器 模 
式 ， 其 操作 数 是 一 个 寄存 器 。 该 寄存 器 可 同时 作为 源 寄 存 器 和 目的 寄存 器 。 第 二 种 是 立即 数 
模式 ， 可 在 指令 中 编码 一 个 8 位 的 无 符号 立即 数 。 

余下 的 寻 址 方式 只 有 在 加 载 和 存储 指令 中 才 有 用 。 第 三 种 模式 是 直接 寻 址 ， 其 操作 数 为 


.指令 指定 的 一 个 内 存 地 址 。 对 16 位 指令 而 言 ， 直 接 寻 址 的 范围 被 限制 在 7 位 (只 有 0 ~ 127 


之 间 的 地 址 可 以 被 载 人 )。AVR 体系 结构 同时 也 定义 了 可 以 进行 16 位 直接 寻 址 的 32 位 指令 ， 
这 最 多 可 以 支持 64KB 的 内 存 寻 址 。 

第 四 种 寻 址 方式 是 寄存 器 间接 寻 址 ， 寄 存 器 中 保存 了 一 个 指向 操作 数 的 指针 。 由 于 一 般 
的 寄存 器 是 8 位 的 ， 因 此 加 载 和 存储 指令 使 用 寄存 器 对 来 表示 16 位 地 址 。 一 个 寄存 器 对 就 可 
以 对 64K 的 地 址 进行 寻 址 了 。AVR 体系 结构 支持 使 用 三 对 寄存 器 对 : X、Y 和 Z， 其 中 和 由 
寄存 器 R26/R27 组 成 ,，Y H R28/R29, Z 为 R30/R31。 举 个 例子 ,为 了 将 一 个 地 址 加 载 到 寄 
存 器 XX 中 ， 程 序 需 要 分 别 读 取 两 个 8 位 的 值 到 R26 和 R27 中 ， 这 需要 两 条 加 载 指令 。 


5.4.14 ”和 寻 址 方式 讨论 


我 们 已 经 研究 了 各 种 寻 址 方式 。 图 5-28 总 结 了 在 Core i7, OMAP4430 和 ATmega168 中 
使 用 的 寻 址 方式 。 正 如 我 们 前 面 已 经 指出 的 ， 并 不 是 每 种 寻 址 方式 都 能 用 于 每 条 指令 。 


寻 址 方式 OMAP4430 ARM ATmega168 AVR 








图 5-28 ” 寻 址 方式 的 比较 
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在 实际 使 用 中 ， 一 个 高 效率 的 指令 系统 层 并 不 需要 太 多 的 寻 址 方式 。 因 为 几乎 所 有 的 指 
令 系 统 层 的 代码 都 是 由 编译 器 生成 的 ( 可 能 除了 ATMega168 之 外 )， 因 此 一 个 体系 结构 的 寻 
址 方式 的 最 重要 的 方面 是 它 提供 的 选择 必须 少 而 清晰 ， 代 价 ( 按照 执行 时 间 和 代码 长 度 来 衡 
量 ) 应 该 易于 计算 。 这 意味 着 计算 机 可 以 采用 极端 的 做 法 : 或 者 提供 所 有 可 能 的 选择 ， 或 者 
只 提供 唯一 的 一 种 方式 。 任 何 这 两 者 之 间 的 做 法 都 会 使 编译 器 无 所 适 从 。 

因此 ， 一 般 来 说 ， 最 清晰 的 体系 结构 只 有 少量 的 寻 址 方式 ， 而 且 每 种 方式 的 使 用 都 有 严 
格 的 限制 。 在 实际 使 用 中 ， 对 于 几乎 所 有 的 应 用 来 说 ， 只 要 有 立即 寻 址 、 直 接 寻 址 、 寄 存 器 
寻 址 和 变 址 寻 址 就 足够 了 。 另 外 ， 在 需要 使 用 寄存 器 的 地 方 ， 所 有 的 寄存 器 《包括 局 部 变量 
指针 、 栈 指针 和 程序 计数 器 ) 都 应 该 可 用 。 一 些 比 较 复 杂 的 寻 址 方式 或 许 能 减少 指令 的 数量 ， 
但 是 它 使 串 行 的 操作 很 难 被 并 行 实现 。 

现在 我 们 已 经 结束 了 关于 操作 码 和 地 址 以 及 不 同形 式 的 寻 址 方式 之 间 的 多 种 可 能 的 权衡 
策略 的 讨论 。 当 你 接触 到 一 台新 计算 机 的 时 候 ， 你 应 该 分 析 它 的 指令 和 寻 址 方式 ， 不 仅 要 看 
可 以 使 用 哪些 寻 址 方式 而 且 要 理解 为 什么 选择 这 种 寻 址 方式 ， 如 果 采 用 其 他 的 寻 址 方式 又 会 
有 什么 结果 。 


5.5 ”指令 类 型 


指令 系统 层 指令 可 以 粗略 地 分 为 6 类， 每 类 指令 在 不 同 的 计算 机 之 间 相 当 类 似 ， 尽 管 可 
能 在 细节 上 有 所 不 同 。 另 外 ， 每 种 型 号 的 计算 机 都 有 一 些 不 常用 的 指令 ， 它 们 可 能 是 为 了 和 
以 前 的 型 号 兼容 ， 或 者 是 设计 师 有 一 个 天 才 的 想法 ， 或 者 是 政府 机 构 出 钱 让 制造 商 增加 。 因 
此 下 面 我 们 并 不 试图 讨论 所 有 的 指令 ， 而 只 是 简要 地 讨论 所 有 常见 的 指令 类 型 。 


5.5.1 数据 移动 指令 


把 数据 从 一 个 地 方 拷贝 到 另 一 个 地 方 是 所 有 操作 的 基础 。 拷 贝 意味 着 创建 一 个 和 原 有 
对 象 完全 相同 的 新 对 象 。 这 里 使 用 的 “移动 ”这 个 词 和 它 的 通常 的 用 法 有 些 不 同 。 当 我 们 说 
Marvin Mongoose 从 纽约 “移动 ”到 加 利 福 尼 亚 时 ， 我 们 的 意思 并 不 是 说 在 加 利 福 尼 亚 创建 了 
一 个 和 Mongoose 先生 完全 相同 的 拷贝 而 原来 的 那个 Mongoose 先生 仍然 在 纽约 。 当 我 们 说 把 
地 址 为 2000 的 内 存单 元 中 的 内 容 “ 移 动 ”到 某 个 寄存 器 中 的 时 候 ,， 我 们 的 意思 是 在 寄存 器 中 
创建 一 个 完全 相同 的 拷贝 而 原来 的 数 仍然 在 2000 的 内 存单 元 中 。 把 数据 移动 指称 为 “数据 找 
贝 ” 指 令 更 合适 ,但 是 术语 “数据 移动 ”指令 已 经 被 广泛 接受 了 。 

把 数据 从 一 个 地 方 拷贝 到 另 一 个 地 方 有 两 个 原因 。 一 个 基本 原因 是 给 变量 赋值 。 赋 值 
操作 

A=B 
通过 把 内 存 地 址 B 的 值 拷 贝 到 内 存 地 址 A 来 实现 ， 这 么 做 的 原因 是 由 程序 员 决 定 的 。 拷 贝 数 
据 的 另 一 个 原因 是 为 了 高 效 地 访问 和 使 用 。 正 如 我 们 已 经 看 到 的 ， 许 多 指令 只 能 访问 寄存 器 
中 的 变量 。 因 为 每 个 数据 项 都 存在 两 个 来 源 ( 内 存 或 者 寄存 器 )， 同 样 存 在 两 个 目的 地 | ( 内 存 
或 者 寄存 器 )， 所 以 一 共存 在 四 种 不 同 的 拷贝 操作 。 某 些 计算 机 对 这 四 种 操作 采用 四 条 指令 ; 
其 他 的 一 些 计算 机 用 一 条 指令 处 理 所 有 的 四 种 情况 。 还 有 一 些 计算 机 使 用 LOAD 指令 从 内 在 
取 数 到 寄存 器 ， 用 STORE 指令 从 寄存 器 取 数 到 内 存 ，MOVE 指令 把 数据 从 一 个 寄存 器 拷贝 
到 另 一 个 寄存 器 ， 而 对 于 内 存 到 内 存 的 拷贝 则 不 提供 指令 。 
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数据 移动 指令 必须 用 某 种 方式 指明 移动 的 数据 量 。 在 某 些 指令 系统 层 中 ， 指 令 可 以 移动 
1 位 一 直到 整个 内 存 大 小 的 可 变 长 的 数据 。 在 固定 字 长 的 计算 机 中 ， 移 动 的 数据 量 通常 是 一 
个 字 。 如 果 需 要 移动 比 一 个 字 多 或 者 少 的 数据 量 就 需要 使 用 软件 通过 移 位 和 合并 操作 来 实现 。 
某 些 指令 系统 层 提供 了 既 能 拷贝 少 于 一 个 字 的 数据 (通常 是 按 字 节 计算 ) 也 能 拷贝 多 个 字 的 
额外 的 能 力 。 拷 贝多 个 字 是 相当 麻烦 的 ， 特 别 是 当 需 要 拷贝 的 数据 量 很 大 时 ， 因 为 这 样 的 操 
作 需 要 很 长 的 时 间 而 且 可 能 在 执行 过 程 中 被 中 断 。 茶 些 可 变 字 长 的 计算 机 中 的 数据 移动 指令 
只 定义 了 源 地 址 和 目的 地 址 而 没有 定义 需要 移动 的 数据 量 。 数 据 拷贝 一 直 持 续 到 发 现 数据 中 
的 “数据 结束 ”标志 为 止 。 


5.5.2” 双 操作 数 指 令 


双 操 作 数 指令 使 用 两 个 操作 数 来 产生 一 个 结果 。 所 有 的 指令 系统 层 都 有 执行 整数 加 、 减 
法 的 指令 。 整 数 的 乘法 和 除法 指令 也 几乎 是 标准 指令 。 计 算 机 为 什么 需要 配备 算术 指令 无 须 
解释 。 

另 一 组 双 操 作 数 指令 包括 逻辑 运算 指令 。 尽 管 存在 16 种 两 个 变量 的 逻辑 运算 ， 但 是 很 少 
有 计算 机 有 这 所 有 16 种 操作 的 指令 。 一 般 来 说 ，AND、OR 和 NOT 指令 是 有 的 ; 某 些 时 候 
还 有 EXCLUSIVE OR, NOR 和 NAND 指令 。 

AND 指令 的 一 个 重要 的 用 途 是 从 字 中 提取 位 。 考 虑 这 样 一 个 例子 ， 在 一 台 32 位 字 长 的 
计算 机 中 ， 每 个 字 保 存 了 4 个 八 位 的 字符 。 假 设 为 了 打印 第 二 个 字符 需要 把 它 和 其 他 三 个 字 
符 分 开 ; 也 就 是 说 ， 需 要 创建 一 个 字 ， 这 个 字 的 最 右面 的 8 位 包括 了 需要 打印 的 字符 ， 称 为 
AMF (right justified )， 而 左边 的 24 位 是 全 0。 

为 了 提取 这 个 字符 ， 这 个 字 和 一 个 称 为 屏蔽 字 (mask) 的 常量 执行 AND 操作 。 结 果 是 
所 有 不 想 要 的 位 都 置 成 了 0， 也 就 是 说 ， 被 屏蔽 掉 了 ， 如 下 所 示 ; 

10110111 10111100 11011011 10001011 A 

00000000 11111111 00000000 00000000 B (mask) 

00000000 10111100 00000000 00000000 A AND B 
再 将 结果 右 移 16 位 使 分 离 出 的 字符 到 达 字 的 最 右 端 。 

OR 指令 的 一 个 重要 的 用 法 是 把 位 组 合 到 字 中 ， 组 合 操作 和 提取 操作 正好 相反 。 为 了 改 
变 一 个 32 位 字 的 最 右面 的 8 位 而 不 影响 其 他 的 24 位 ， 首 先 将 不 想 要 的 8 位 屏蔽 掉 ， 然 后 再 
和 新 的 字符 进行 OR 操作 ， 如 下 所 示 ; i 

10110111 10111100 11011011 10001011 A 

11111111 11111111 11111111 00000000 B (mask) 

10110111 10111100 11011011 00000000 A AND B 

00000000 00000000 00000000 01010111 C 

10110111 10111100 11011011 01010111 (A AND B) OR C 

AND 操作 的 趋势 是 移 去 1， 因 为 结果 中 的 1 肯定 不 会 比 任何 一 个 操作 数 中 的 1 多 。OR 
操作 的 趋势 是 插入 1， 因 为 结果 中 的 1 至 少 和 1 最 多 的 操作 数 中 的 1 一 样 多 。 而 另 一 方面 ， 
EXCLUSIVE OR 是 对 称 的 ， 它 的 平均 趋势 是 既 不 插 人 1 也 不 移 走 1。 这 种 在 1 和 0 之 间 的 对 
称 性 有 时 候 是 很 有 用 的 ， 比 如 说 ， 可 以 用 于 生成 随机 数 。 

目前 的 大 多 数 计算 机 都 支持 浮 点 指令 集 ， 大 体 上 和 整数 运算 指令 相对 应 。 大 多 数 计算 机 
都 提供 至 少 两 种 长 度 的 浮 点 数 ， 长 度 短 的 用 于 加 快运 算 速度 ， 而 长 度 较 长 的 用 于 需要 高 精度 
的 场合 。 虽 然 浮 点 数 格 式 有 多 种 变 体 ， 但 是 IEEE 754 这 个 单一 的 标准 已 经 被 大 家 所 公认 。 附 
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录 B 讨论 了 浮 点 数 和 IEEE 754, 
5.5.3 BERS 


单 操作 数 指令 只 有 一 个 操作 数 而 且 只 产生 一 个 结果 。 因 为 单 操作 数 指令 使 用 的 地 址 比 双 
操作 数 指令 少 ， 指 令 长 度 相 对 较 短 ， 因 此 可 以 在 指令 中 定义 一 些 其 他 信息 。 

对 字 和 字 节 的 内 容 进 行 移 位 和 循环 移 位 的 指令 很 常用 ， 因 此 指令 系统 层 经 常 提供 多 条 这 
样 的 指令 。 移 位 操作 把 字 中 的 位 向 左 或 者 向 右 移动 ， 移 到 字 之 外 的 位 将 会 丢失 。 循 环 移 位 是 
从 字 的 一 端 移出 的 位 放 回 到 字 的 另 一 端 。 移 位 和 循环 移 位 的 区 别 如 下 所 示 : 

00000000 00000000 00000000 01110011 A 

00000000 00000000 00000000 00011100 A ÆR FIt: 

11000000 00000000 00000000 00011100 A 循环 右 移 两 位 
左 移 、 右 移 和 循环 左 移 、 循 环 右 移 都 很 有 有 用。 一个) 位 长 的 字 循 环 左 移 上 位 和 循环 右 移 zx- 
位 的 结果 相同 。 

右 移 通常 需要 进行 符号 扩展 。 即 在 执行 右 移 操作 时 ， 字 左面 空 出 来 的 位 填充 该 字 的 初始 
符号 位 0 或 者 1。 这 就 好 像 把 符号 位 向 右 拉 。 它 意味 着 负数 执行 右 移 操作 之 后 还 是 负数 。 下 
面 是 将 一 个 数 右 移 两 位 的 情况 : 

11111111 11111111 11111111 11110000 A 

00111111 11111111 11111111 11111100 A 不 带 符号 扩展 的 右 移 

11111111 11111111 11111111 11111100 A 带 符号 扩展 的 右 移 

移 位 操作 的 一 个 重要 的 用 途 是 乘 和 除 2 Hn Kio KNEE k, WREDA JER 
出 ， 结 果 就 等 于 原来 的 数 乘 以 2:。 将 一 个 正 数 右 移 k 人 位， 结果 等 于 原来 的 数 除 以 2*。 

可 以 使 用 移 位 操作 来 加 快 某 些 特定 的 数学 运算 。 考 虑 这 样 一 个 例子 ， 对 于 某 个 正 整数 n, 
计算 18 x za。 因 为 18 xn=l6xnt2xn, l6xn 可 以 通过 把 z 左 移 4 位 来 得 到 ，2 xn 可 以 通过 
把 n 左 移 1 位 来 得 到 。 这 两 个 结果 之 和 就 是 18 xn。 这 样 我 们 通过 一 次 数据 转移 、 两 次 移 位 
和 一 次 加 法 得 到 了 结果 ， 一 般 来 说 ， 这 要 比 做 乘法 操作 更 快 。 当 然 ， 只 有 当 一 个 乘积 项 是 常 
数 时 编译 器 才能 使 用 这 样 的 技巧 。 

但 是 在 对 负数 进行 移 位 的 时 候 ， 即 使 带 符号 扩展 ， 也 会 得 到 完全 不 同 的 结果 。 考 虑 -1 的 
反 码 。 将 其 左 移 1 位 得 到 -3。 再 左 移 1 位 得 到 -7。 

11111111 11111111 11111111 11111110 -1 HRB 

11111111 11111111 11111111 11111100 -1 左 移 1 位 = -3 

11111111 11111111 11111111 11111000 -1 左 移 2 位 = -7 
左 移 负 数 的 反 码 并 不 等 于 乘 2。 但 是 右 移 仍 然 和 除 以 2 的 结果 相同 。 

现在 考虑 -1 的 补 码 。 对 它 进行 带 符号 扩展 的 右 移 6 位 ， 得 到 的 还 是 -1， 这 是 不 正确 的 ， 
因为 -1/64 的 整数 部 分 是 0: 

11111111 11111111 11111111 11111111 —1 的 补 码 

11111111 11111111 11111111 11111111 —1 ##6fř = —1 
一 般 来 说 ， 右 移 操作 会 产生 错误 ， 因 为 它 的 截断 使 数 变 为 更 小 的 负数 ， 这 对 于 负 整 数 的 运算 
是 不 正确 的 。 但 是 左 移 操作 确实 相当 于 乘 2。 

循环 移 位 操作 在 从 字 中 组 合 和 拆 分 位 串 时 很 有 用 。 如 果 需 要 测试 一 个 字 的 所 有 位 ， 我 们 
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可 以 对 它 进行 循环 移 位 ， 每 次 移 一 位 ， 这 样 需要 测试 的 位 总 在 符号 位 ， 这 就 使 测试 过 程 相当 
容易 ， 而 且 当 所 有 的 位 都 测试 过 之 后 ， 这 个 字 的 值 又 回 到 了 初始 值 。 循 环 移 位 比 移 位 操作 更 
加 纯洁 ， 因 为 它 不 会 丢失 任何 信息 : 任何 一 次 循环 移 位 操作 的 结果 都 可 以 用 另 一 次 循环 移 位 
操作 使 其 复原 。 

某 些 双 操 作 数 指令 经 常 带 某 一 个 特定 的 操作 数 ， 因 此 指令 系统 层 常 常 提供 单 操作 数 指令 
快速 完成 它们 的 操作 。 在 一 个 计算 过 程 的 初始 化 阶段 ， 把 一 个 内 存 字 或 者 寄存 器 置 为 0 的 操 
作 很 常见 。 当 然 ， 这 种 对 0 进行 的 移动 是 通用 的 数据 移动 指令 的 特例 。 但 是 为 了 提高 效率 ， 
指令 系统 层 通常 提供 CLR 指令 ， 它 只 有 一 个 地 址 ， 它 执行 的 操作 是 把 该 地 址 的 内 容 清 除 (也 
就 是 置 为 0 )。 

在 计数 的 时 候 经 常会 用 到 加 1 操作 。INC 指令 就 是 ADD 指令 的 单 操作 数 的 形式 ， 它 的 
功能 就 是 执行 加 1。 男 一 个 例子 是 NEG 指令 。 求 一 个 数 XX 的 相反 数 一 般 是 计算 0-X， 这 是 一 
条 双 操 作 数 的 减法 指令 ， 因 为 它 比较 常用 ， 有 时候 就 会 提供 一 条 单独 的 NEG 指令 。 值 得 注意 
的 是 算术 操作 NEG ARRE NOT 是 不 同 的 。NEG 操作 产生 一 个 数 的 相反 数 (相反 数 是 指 
与 原来 的 数 相 加 得 0 的 数 )。 而 NOT 操作 只 是 把 一 个 字 中 的 所 有 位 取 反 。 这 两 种 操作 是 非常 
相似 的 ， 实 际 上 ， 当 使 用 反 码 表示 法 的 时 候 ， 它 们 是 完全 相同 的 。( 在 补 码 运算 中 ，NEG 操 
作 是 把 NOT 操作 的 结果 再 加 1 ) 

双 操 作 数 和 单 操作 数 指令 通常 按照 它们 的 用 法 分 类 ， 而 不 是 按照 它们 需要 的 操作 数 的 数 
量 分 类 。 一 类 是 算术 运算 指令 (包括 求 相反 数 )。 另 一 类 包括 录 辑 运算 指令 和 移 位 运算 指令 ， 
把 它们 分 成 一 类 是 因为 经 常 同 时 使 用 它们 以 实现 数据 提取 。 


5.5.4 ”比较 和 条 件 转移 指令 


几乎 所 有 的 程序 都 需要 有 这 种 能 力 : 对 数据 进行 检查 ， 并 根据 检查 结果 来 决定 指令 的 不 
同 执行 顺序 。 求 平方 根 函 数 就 是 一 个 简单 的 例子 。 如 果 x 是 负数 ， 程 序 将 会 产生 一 条 错误 信 
A; 否则 就 计算 平方 根 。 函 数 sqrt 需要 测试 x 的 值 并 根据 x 是 正 数 还 是 负数 来 决定 执行 哪个 
程序 分 支 。 

实现 这 种 功能 的 常用 方法 是 使 用 条 件 转移 指令 ， 条 件 转移 指令 测试 某 些 条 件 位 ， 如 果 条 
件 成 立 将 转移 到 某 个 特定 的 内 存 地 址 。 有 时 ， 指 令 中 会 有 1 位 来 标识 是 条 件 满 足 时 转移 还 是 
条 件 不 满足 时 转移 。 通 常 目 标 地 址 并 不 是 绝对 地 址 而 是 相对 于 当前 指令 的 偏 移 量 。 

最 常用 的 条 件 是 计算 机 中 某 个 特定 的 位 是 否 为 0。 如 果 一 条 指令 测试 一 个 数 的 符号 位 ， 
当 符 号 位 等 于 1 就 跳 转 到 LABEL 处 执行 ， 那么 如 果 这 个 被 测试 的 数 是 负数 ， 程 序 将 执行 从 
LABEL 处 开始 的 语句 ， 如 果 这 个 数 是 0 或 者 是 正 数 ， 程 序 将 继续 执行 条 件 转移 指令 后 面 的 
指令 。 

许多 计算 机 都 有 条 件 码 位 来 标识 特定 的 条 件 。 比 如 说 ， 无 论 何 时 ， 只 要 算术 操作 产生 了 
不 正确 的 结果 ， 溢 出 位 就 会 被 置 为 1。 通 过 测试 该 位 ， 我 们 就 可 以 检查 出 前 面 的 算术 操作 是 
否 产生 了 溢出 ， 如 果 发 生 了 溢出 ， 程 序 可 以 跳 转 到 错误 处 理 例 程 去 执行 。 

类 似 地 ， 某 些 处 理 器 有 一 个 进位 位 ， 当 最 高 位 发 生 进 位 时 它 将 被 置 1。 比 如 说 ， 当 两 个 
负数 相 加 时 就 会 发 生 这 种 情况 。 最 高 位 产生 进位 是 相当 正常 的 ， 不 要 把 它 和 溢出 混淆 。 在 
进行 多 精度 数 运算 的 时 候 就 需要 测试 进位 位 ( 多 精度 数 是 指 一 个 整数 用 两 个 或 者 更 多 的 字 
来 表示 )。 

测试 一 个 数 是 否 为 0 对 于 循环 语句 和 许多 其 他 的 目的 来 说 都 很 重要 。 如 果 所 有 的 条 件 
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转移 指令 都 每 次 只 能 测试 1 位， 那么 为 了 测试 一 个 特定 的 字 是 否 为 0， 我 们 需要 对 该 字 的 每 
一 位 都 进行 测试 来 保证 没有 任何 一 位 是 1。 为 了 避免 出 现 这 种 情况 ， 许 多 计算 机 提供 了 测试 
一 个 字 是 否 为 0 并 根据 结果 执行 转移 的 指令 。 当 然 ， 这 种 解决 办 法 只 不 过 是 把 矛盾 下 放 到 了 
微 体系 结构 层 而 已 。 在 实际 实现 中 ， 硬 件 通常 包 括 一 个 单独 的 位 ， 它 给 出 了 寄存 器 所 有 的 位 
OR 在 一 起 的 结果 ， 根 据 结果 我 们 可 以 判断 寄存 器 中 是 否 包含 1。 图 4-1 中 的 Z 位 就 是 通过 对 
ALU 的 所 有 输出 位 执行 OR 运算 再 取 反 得 到 的 。 

排序 这 样 的 程序 常常 需要 比较 两 个 字 或 者 两 个 字符 是 否 相等 ， 如 果 不 相等 还 要 判断 哪个 
比较 大 。 为 了 执行 这 种 测试 ， 需 要 三 个 地 址 : 两 个 用 于 数据 ， 另 一 个 是 条 件 满足 时 的 跳 转 地 
址 。 人 允许 三 地 址 指令 格式 的 计算 机 没有 任何 问题 ， 而 不 使 用 三 地 址 格式 指令 的 计算 机 就 必须 
采取 某 些 措施 来 实现 该 操作 。 

一 个 通常 的 解决 方案 是 提供 一 条 指令 来 执行 比较 操作 并 设置 一 个 或 更 多 的 条 件 位 来 记录 
结果 。 接 下 来 的 指令 测试 条 件 位 并 根据 比较 结果 相等 、 不 等 或 者 第 一 个 数 比 较 大 等 条 件 来 执 
行 跳 转 。Core i7, OMAP4430 ARM CPU 和 ATmegal68 AVR 都 使 用 这 种 方案 。 

在 比较 两 个 数 的 时 候 需 要 考虑 几 个 小 问题 。 比 如 说 ， 比 较 操 作 并 不 像 做 减法 那么 简单 。 
如 果 一 个 非常 大 的 正 数 和 一 个 非常 大 的 负数 进行 比较 ， 由 于 减法 的 结果 无 法 表示 ， 减 法 操作 
将 产生 溢出 。 在 这 种 情况 下 ， 比 较 指 令 必须 判断 测试 条 件 是 否 满 足 ， 并 返回 正确 的 结果 ， 因 
为 在 比较 时 是 没有 溢出 的 。 

进行 比较 的 另 一 个 小 问题 是 参与 比较 的 数 是 否 有 符号 。 三 位 二 进 制 数 可 以 按照 如 下 两 种 
方式 从 小 到 大 进行 排序 : 


无 符号 的 ” 带 符号 的 
000 100 (最 小 值 ) 
001 101 
010 110 
011 111 
100 000 
101 001 
110 010 
111 011 (最 大 值 ) 


左面 的 一 列 是 对 0 ~ 7 的 正 数 进行 升序 排列 。 右 面 的 一 列 是 补 码 带 符号 整数 -4 ~ +3 的 升序 
排列 。 问 题 “011 HE 100 大 吗 ? ”的 答案 取决 于 是 否 考 虑 符号 位 。 大 多 数 指令 系统 层 都 有 不 
同 的 指令 来 处 理 这 两 种 排序 。 


5.5.5 ”过程 调用 指令 


过 程 (procedure ) 是 执行 某 个 任务 的 指令 集合 ， 它 可 以 被 程序 的 其 他 部 分 调用 。 我 们 常 
用 子 程序 ( subroutine ) 来 代替 过 程 ， 尤 其 是 在 汇编 语言 程序 中 。 在 C 中 ， 过 程 通常 称 为 函数 
(function )， 而 Java 中 使 用 的 术语 是 方法 (method. )。 当 被 调用 的 过 程 完成 了 它 的 工作 之 后 ， 
必须 返回 到 调用 之 后 的 语 名。 因此， 返回 地 址 必须 传递 给 被 调用 的 过 程 或 者 保存 在 某 个 地 方 
以 便 过 程 返回 时 能 找到 返回 地 址 。 

返回 地 址 可 以 放 在 以 下 三 个 位 置 : 内 存 、 寄 存 器 或 者 栈 。 显 然 把 它 放 在 一 个 单独 的 、 固 
定 的 内 存 地 址 中 是 最 差 的 方案 。 如 果 使 用 这 种 方法 ， 当 一 个 过 程 调用 另 一 个 过 程 时 ， 第 二 次 
调用 的 返回 地 址 将 会 冲 掉 第 一 次 的 地 址 。 
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一 个 微小 的 改进 是 过 程 调 用 指令 把 返回 地 址 保存 在 过 程 的 第 一 个 字 中 ， 从 第 二 个 字 开始 
是 过 程 的 执行 指令 。 过 程 可 以 通过 第 一 个 字 作 为 间接 跳 转 地 址 来 返回 ， 如 果 硬 件 把 转移 指令 
的 操作 码 放 到 了 过 程 的 第 一 个 字 中 并 且 后 面 跟着 返回 地 址 ， 那 么 过 程 可 以 直接 跳 转 到 返回 地 
址 。 这 种 方案 中 一 个 过 程 可 以 调用 另 一 个 过 程 ， 因 为 每 个 过 程 都 有 空间 来 保存 一 个 返回 地 址 。 
如 果 过 程 调用 了 自身 ， 这 种 方法 将 会 失败 ， 因 为 第 一 个 返回 地 址 将 会 被 第 二 次 调用 破坏 。 我 
们 把 过 程 调用 自身 的 能 力 称 为 递归 (recursion, )， 递 归 对 理论 研究 人 员 和 实际 编程 人 员 都 具有 
重要 的 意义 。 另 外 ， 如 果 过 程 4 调用 过 程 83， 过 程 B 调用 过 程 C， 过 程 C 又 调用 过 程 4 ( 称 
为 间接 递归 或 者 菊花 链 递归 )， 这 种 方法 也 会 失败 。CDC 6600 是 20 世纪 60 年 代 大 部 分 时 间 
内 世界 上 最 快 的 计算 机 ， 这 种 把 返回 地 址 保存 在 过 程 的 第 一 个 字 的 策略 就 应 用 在 了 该 机 器 上 。 
CDC 6600 上 主要 的 语言 是 FORTRAN，FORTRAN 是 禁止 使 用 递归 的 。 所 以 ， 这 种 策略 也 可 
以 使 用 ， 但 是 它 始终 是 一 个 差劲 的 主意 。 

一 个 比较 大 的 改进 是 由 过 程 调用 指令 把 返回 地 址 存放 到 寄存 器 中 ， 由 过 程 自己 负责 把 它 
保存 到 一 个 安全 的 地 方 。 如 果 过 程 是 递归 的 ， 它 就 应 该 在 每 次 被 调用 的 时 候 把 返回 地 址 放 到 
不 同 的 地 方 。 

过 程 调用 指令 处 理 返回 地 址 的 最 好 的 方法 是 把 它 压 人 栈 。 当 过 程 结 束 的 时 候 ， 从 栈 顶 弹 
出 返回 地 址 并 放 和 人 程序 计数 器 。 如 果 采 用 这 种 过 程 调 用 形式 ， 递 归 就 不 会 带 来 任何 特殊 的 问 
题 ; 返回 地 址 被 自动 保存 而 不 会 破坏 原 有 的 返回 地 址 。 递 归 在 这 种 情况 下 工作 良好。 我 们 可 
以 从 图 4-12 中 看 到 在 VM 中 就 使 用 了 这 种 方法 来 保存 返回 地 址 。 


5.5.6 ”循环 控制 指令 


我 们 经 常 需要 按照 固定 的 次 数 重复 执行 一 组 指令 ， 为 了 便于 执行 这 样 的 操作 ， 某 些 计算 
机 提供 了 专用 的 指令 。 这 些 指令 的 实现 方法 中 肯定 会 包括 一 个 计数 器 ， 它 在 执行 每 次 循环 时 
都 要 加 上 或 者 减 去 某 个 常数 。 每 次 执行 循环 时 还 要 对 计数 器 进行 测试 ， 如 果 一 定 的 条 件 成 立 ， 
循环 将 结束 。 

一 种 方法 是 在 循环 外 初始 化 计数 器 然后 立即 开始 执行 循环 代码 。 循 环 的 最 后 一 条 指令 修 
改 计数 器 的 值 ， 如 果 不 满 足 结束 条 件 ， 将 跳 转 到 循环 的 第 一 条 指令 去 执行 。 否 则 就 结束 循环 
继续 执行 循环 后 的 第 一 条 指令 。 我 们 把 这 种 形式 的 循环 的 特征 总 结 为 结束 时 测试 (test-at-the- 
end) 或 者 后 测试 (post-test )， 图 5-29a 中 的 C 程序 段 就 使 用 了 这 种 循环 ( 这 里 我 们 没有 使 用 
Java 的 例子 是 因为 Java 中 没有 goto 语句 )。 


=; 










i=: 
L1: if (i >n) goto L2; 
第 一 条 语句 ; 







Li: 第 一 条 语句 ; 


i=i+ 


if (i < n) goto L1; goto L1; 











L2: 
a) 循环 结束 时 测试 b) 循环 开始 时 测试 


图 5-29 
循环 结束 时 测试 有 一 个 特点 : 循环 至 少 执行 一 次 ， 即 使 n 小 于 或 者 等 于 0。 作为 例子 ， 
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考虑 一 个 管理 公司 员工 信息 的 程序 。 假 定 它 正 在 读 某 个 特定 员工 的 信息 。 它 把 该 员工 的 孩子 
的 数量 放 入 变量 n， 然 后 执行 n 遍 循环 ， 每 次 读 出 一 个 孩子 的 名 字 、 性 别 和 生日 ， 以 便 公司 
可 以 送 给 他 或 者 她 一 件 生日 礼物 ,这 是 公司 的 额外 的 福利 。 如 果 一 个 员工 没有 孩子 ,nn 的 值 
就 是 0 但 是 循环 仍然 将 执行 一 次 并 送出 一 件 礼物 ， 这 就 导致 了 错误 的 结果 。 

图 5-29b 中 是 另 一 种 执行 测试 的 方法 一 一 前 测试 ( pretest )， 当 小 于 或 者 等 于 0 时 它 也 
能 正确 执行 。 注 意 ， 在 两 种 方法 中 测试 是 不 同 的 ， 因 此 如 果 一 条 单独 的 指令 系统 层 指令 同时 
完成 了 增 量 和 测试 ， 设 计 者 就 不 得 不 使 用 其 中 的 一 种 方案 。 

考虑 下 面 的 语句 编译 后 应 该 生成 的 代码 

for (i = 0; i < n; i++) {#4} 
QAR Sa FE a AS A Ton 的 任何 信息 ， 它 一 定 会 使 用 图 5-29b 中 的 方法 以 便 能 正确 地 处 理 
n 小 于 或 者 等 于 0 的 情况 。 但 是 ， 如 果 编 译 器 能 够 知道 了 是 大 于 0 的， 比如 说 ， 编 译 器 可 
以 去 查找 nn 是 在 哪里 分 配 的 ， 这 样 它 就 可 以 产生 图 5-29a 那样 的 效率 更 高 的 代码 。 以 前 的 
FORTRAN 标准 就 规定 所 有 的 循环 都 至 少 执行 一 次 ， 这 样 可 以 在 任何 情况 下 都 能 够 生成 图 
5-29a 那样 的 高 效 代 码 。 到 1977 年 ， 这 一 缺陷 被 弥补 了 ， 因 为 即使 FORTRAN 联合 会 也 开始 
认识 到 ， 尽 管 它 能 够 在 循环 中 节省 一 条 转移 指令 ， 但 采用 这 种 具有 奇怪 的 语义 、 有 时 候 还 会 
发 生 错误 的 循环 语句 并 不 是 一 个 好 主意 。 而 C 和 Java 在 处 理 循 环 时 总 是 正确 的 。 


5.5.7 输入 /输出 指令 


没有 任何 一 类 指令 像 输 入 /输出 指令 (以 下 简称 为 IO 指令 ) 这样 在 不 同 的 计算 机 之 间 
具有 如 此 大 的 差别 。 目 前 的 个 人 计算 机 中 使 用 了 三 种 不 同 的 输入 /输出 策略 。 它 们 是 : 

1) 遇 忙 等 待 的 程序 控制 TO 

2) 中 断 驱动 的 IO 

3) DMA IO 

下 面 我 们 按 次 序 分 别 对 它们 进行 讨论 。 

程序 控制 VO 是 一 种 最 简单 可 行 的 输入 /输出 策略 。 它 通常 用 在 低 端 的 微 处 理 器 中 ， 比 
如 骨 人 式 系统 和 那些 必须 对 外 界 变化 作出 快速 响应 的 系统 (实时 系统 )。 这 些 CPU 一 般 都 有 
一 条 单独 的 输入 指令 和 一 条 单独 的 输出 指令 。 每 条 这 样 的 指令 都 要 选择 一 个 IO 设备 。 然 后 
在 处 理 器 中 固定 的 寄存 器 和 被 选择 的 IO 设备 之 间 传 递 一 个 字 节 。 处 理 器 必须 执行 明确 的 指 
令 序 列 来 处 理 每 个 字符 的 读 写 。 

举 个 简单 的 例子 ， 一 台 带 四 个 单字 节 寄 存 器 的 终端 ， 如 图 5-30 所 示 。 两 个 寄存 器 用 于 输 
人 人 ， 同 时 保存 状态 和 数据 ， 另 两 个 寄存 器 用 于 输出 ， 也 同样 保存 状态 和 数据 。 每 个 寄存 器 都 有 
一 个 单独 的 地 址 。 如 果 使 用 内 存 映射 的 WO， 则 这 四 个 寄存 器 都 是 计算 机 内 存 地 址 空间 的 一 部 
分 ， 可 以 使 用 通常 的 指令 读 写 。 否 则 ， 就 需要 使 用 特殊 的 IO 指令 来 读 写 它们 ， 比 如 IN 和 OUT 
指令 。 在 这 两 种 情况 下 ，1/O 都 是 通过 在 CPU 和 这 些 寄存 器 之 间 传 递 数据 和 状态 信息 来 进行 的 。 

键盘 状态 寄存 器 中 只 有 2 位 是 有 用 的 ， 其 他 6 位 没有 用 到 。 当 一 个 字符 到 达 时 ， 最 左 
面 1 位 (第 7 位 ) 被 硬件 置 为 1。 如 果 在 这 之 前 ， 软 件 已 经 把 第 6 位 置 为 1 了 ， 就 会 产生 
一 个 中 断 ， 否 则 就 不 会 产生 ( 后 面 我 们 会 讲解 中 断 的 原理 )。 当 使 用 程序 控制 1O 时 ， 为 了 
获得 输入 ，CPU 通常 停 在 一 个 重复 读 键盘 状态 寄存 器 的 小 循环 中 ， 直 到 第 7 位 被 置 位 。 这 
时 ， 由 软件 去 读 键盘 缓冲 区 寄存 器 中 的 字符 。 读 键盘 数据 寄存 器 的 操作 会 使 字符 可 用 位 
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( CHARACTER AVAILABLE ) 被 重新 置 为 0。 


字符 可 用 键盘 状态 准备 好 接收 下 一 字符 
| 人 
中 断 使 能 中 断 使 能 


键盘 缓冲 区 显示 缓冲 区 
接收 的 字符 显示 的 字符 


图 5-30 简单 终端 的 设备 寄存 器 


输出 和 输入 是 类 似 的 。 为 了 向 屏幕 上 写 一 个 字符 ， 软 件 首先 读 显 示 状 态 寄存 器 检查 
READY 位 是 否 为 1。 如果 不 是 1， 它 就 循环 检查 直到 READY 位 变 成 1， 这 表示 设备 已 经 准 
备 好 接收 一 个 字符 。 一 旦 终端 准备 好 ， 软 件 就 写 一 个 字符 到 显示 缓冲 区 寄存 器 中 ， 这 会 使 它 
被 传送 到 屏幕 上 ， 还 导致 设备 清除 显示 状态 寄存 器 中 的 READY 位 。 当 字符 被 显示 到 终端 上 
而 且 终 端 准备 好 处 理 下 一 个 字符 时 ，READY 位 会 再 次 被 控制 器 设 为 1。 

作为 程序 控制 IO 的 例子 ,请 看 图 5-31 中 的 Java 过 程 。 这 个 过 程 有 两 个 调用 参数 : 一 个 
用 于 输出 的 字符 数组 ， 一 个 记录 数组 中 的 字符 个 数 的 计数 器 ， 其 上 限 是 1K。 过 程 体 是 一 个 每 
次 输出 一 个 字符 的 循环 。 输 出 每 个 字符 时 ，CPU 必须 首先 等 待 设备 准备 好 ， 然 后 才能 输出 字 
符 。in 和 out 函数 一 般 来 说 是 汇编 语言 例 
程 ，in 函数 用 于 读 取 参数 中 指定 的 设备 


public static void output_buffer(char buff ], int count) { 


/向 设备 输出 一 块 数据 
寄存 器 的 值 ，out 函数 则 把 第 二 个 参数 定 int fb i, ready; 
义 的 变量 的 值 写 人 第 一 个 参数 指定 的 设 for (i= 0; i < count; i++) { 
5 ` do { 
备 寄存 器 中 。 把 状态 字 除 以 128 是 为 了 ye = in(display_status_reg); /获取 状态 
滤 掉 低 7 位 ,使 READY 位 处 于 第 0 fiz. ready = (Status >> 7) & 0x01; /取出 ready 和 位 
程序 控制 VO 的 主要 的 缺点 是 CPU hd ony ok yop butil: 





把 大 部 分 时 间 浪 费 在 等 待 设备 准备 好 的 a 
循环 操作 上 。 这 种 策略 称 为 遇 忙 等 待 
(busy waiting )。 如 果 CPU 没有 别 的 工作 
可 做 (比如 一 台 洗 衣 机 中 的 CPU )， 使 用 遇 忙 等 待 也 是 可 以 的 (实际 上 ， 即 使 一 个 简单 的 控制 
器 也 常常 需要 监控 多 个 并 发 的 事件 )。 但 是 ， 如 果 CPU 有 其 他 的 工作 要 做 ， 例 如 要 运行 别 的 
程序 ， 遇 忙 等 待 就 显得 很 浪费 ， 因 此 我 们 需要 另 一 种 不 同 的 VO 策略 。 

去 掉 遇 忙 等 待 的 一 种 方法 是 由 CPU 启动 IO 设备 并 告诉 它 当 设备 准备 好 时 就 产生 
一 个 中 断 。 请 看 一 下 图 5-30， 我 们 来 讨论 这 种 方式 的 工作 原理 。 设 置 了 设备 寄存 器 中 的 
INTERRUPT ENABLE 位 后 ， 当 1/0 完成 时 ， 硬 件 会 给 软件 一 个 中 断 信和 号。 在 本 章 后 面 的 控 
制 流 部 分 我 们 会 详细 地 研究 中 断 。 

值得 注意 的 是 在 许多 计算 机 中 ， 中 断 信 号 是 由 READY 位 和 INTERRUPT ENABLE 位 
相 与 后 产生 的 。 如 果 软 件 在 启动 IO 之 前 设置 了 中 断 位 ， 那 么 会 立刻 产生 一 个 中 断 ， 因 为 
READY 位 是 1。 因 此 我 们 应 该 首先 启动 设备 然后 再 使 中 断 使 能 。 向 状态 寄存 器 中 写 一 个 字 节 
并 不 会 改变 READY 位 ， 因 为 状态 寄存 器 是 只 读 的 。 

尽管 中 断 驱 动 的 IO 与 程序 控制 IO 相 比 前 进 了 一 大 步 ， 但 它 仍然 达 不 到 十 全 十 美 。 问 
题 在 于 传送 每 个 字符 时 都 需要 一 次 中 断 ， 而 中 断 处 理 的 开销 是 很 大 的 。 我 们 需要 一 种 能 够 尽 


图 5-31 可 编程 IO 举例 
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量 不 使 用 中 断 的 办 法 。 

解决 问题 的 方案 又 回 到 了 程序 控制 7O， 但 这 次 我 们 让 别人 去 做 。( 许多 问题 换 一 个 人 去 
做 可 以 迎刃而解 )。 图 5-32 显示 了 这 种 方式 是 如 何 工 作 的 。 我 们 增加 了 一 个 新 的 芯片 ， 一 块 
可 以 直接 访问 总 线 的 直接 内 存 访问 ( Direct Memory Access, DMA ) 控制 器 。 





图 5-32 使 用 DMA 控制 器 的 系统 


DMA 芯片 内 部 至 少 有 4 个 寄存 器 ， 它 们 都 可 以 被 CPU 中 运行 的 软件 访问 。 第 一 个 寄存 
器 存放 读 / 写 的 内 存 地 址 。 第 二 个 寄存 器 存放 传送 的 字 节 数 或 字数 。 第 三 个 寄存 器 定义 了 使 
用 的 设备 号 或 者 IO 空间 地 址 ， 也 就 是 定义 IO 设备 。 第 四 个 寄存 器 用 来 判断 是 从 IO 设备 读 
数据 还 是 向 IO 设备 写 数 据 。 

为 了 把 从 内 存 地址 100 开始 的 32 个 字 节 的 内 存 块 写 人 终端 (比如 说 ， 设 备 4)，CPU 在 
前 三 个 DMA 寄存 器 中 分 别 写 人 32、100 和 4， 在 第 四 个 寄存 器 中 设置 写 标 志 位 (比如 1 )， 
如 图 5-32 所 示 。 初 始 化 完成 以 后 ，DMA 控制 器 就 请 求 总 线 从 内 存 地 址 100 处 读 一 个 字 节 ， 
RR CPU 从 内 存 读数 一 样 。 获 得 该 字 节 之 后 ，DMA 控制 器 向 设备 4 发 出 ORR, BRE 
人 该 字 节 。 当 这 两 个 操作 都 完成 以 后 ，DMA 控制 器 将 地 址 寄存 器 加 1， 传 送 数量 寄存 器 减 1。 
如 果 数 量 寄存 器 仍然 大 于 0， 那么 DMA 控制 器 将 从 内 存 中 读 出 下 一 个 字 节 并 写 人 设备 。 

当 传送 数量 减 为 0 时 ，DMA 控制 器 停止 数据 传送 并 向 CPU 发 一 个 中 断 。 使 用 DMA 方 
R, CPU 只 需要 初始 化 一 些 寄存 器 。 在 这 之 后 ，CPU 就 可 以 去 做 其 他 的 事情 直到 数据 传送 结 
R, Rit DMA 控制 器 发 来 中 断 。 某 些 DMA 控制 器 有 两 个 、 三 个 或 者 更 多 组 寄存 器 ， 这 样 它 
们 就 可 以 控制 多 个 同时 发 生 的 数据 传送 。 

虽然 DMA 方式 极 大 地 减轻 了 CPU 的 IO 负担 ， 这 种 方式 本 身 仍然 具有 一 定 的 开销 。 当 
一 个 像 硬盘 这 样 的 高 速 设备 运行 DMA 时 ， 它 将 需要 许多 总 线 周 期 来 访问 内 存 和 设备 。 在 这 
些 周 期 中 ，CPU 只 能 等 待 (DMA 的 优先 级 总 是 高 于 CPU， 因 为 通常 IO 设备 延 时 要 求 很 高 )。 
这 种 DMA 控制 器 占用 CPU 总 线 的 过 程 称 为 总 线 窃取 。 但 是 不 管 怎么 说 ， 总 线 窃取 要 比 传送 
每 个 字 节 (RF) 时 都 产生 中 断 要 好 得 多 。 


5.5.8 ”Core i7 指令 系统 


在 以 下 的 三 小 节 中 ， 我们 将 讨论 三 种 范例 CPU 一 一 Core i7, OMAP4430 ARM CPU 和 


286 PSF 


ATmegal68 AVR 的 指令 集 。 它 们 都 是 由 编译 器 可 以 正常 生成 的 指令 集 (核心 指令 集 ) 和 一 部 


分 很 少 使 用 的 指令 或 者 说 是 仅 供 操作 系统 使 用 的 指令 组 成 。 我 们 将 集中 讨论 常用 的 指令 。 在 
接 下 来 的 讨论 中 ,我 们 先 把 焦点 放 在 常用 的 指令 上 。 首 先 讨论 Core i7 的 指令 系统 ， 它 是 最 复 
杂 的 ， 而 后 就 会 越 来 越 简单 。 

Core i7 指令 系统 混合 了 32 位 模式 指令 和 那些 只 是 为 了 保持 与 8088 的 兼容 性 的 指令 。 
图 5-33 中 是 我 们 选 出 的 目前 编译 器 和 程序 员 比 较 常 用 的 整数 指令 。 这 张 表 很 不 完整 ， 因 为 它 
没有 包括 任何 浮 点 指令 、 控 制 指令 和 某 些 特殊 的 整数 指令 ( 比如 使 用 AL 中 的 8 位 字 节 进行 
表 查 找 的 指令 )。 但 是 不 管 怎 样 ， 这 张 表 可 以 使 我 们 大 致 了 解 Core i7 到 底 可 以 做 些 什么 。 


数据 移动 指令 
























控制 转移 指令 
跳 转 到 ADDR 
xx ADDR 基于 标志 执行 条 件 转 移 


调用 ADDR 处 的 过 程 









ns 






RET 从 过 程 返 回 
把 SRC 的 有 效 地 址 存 人 DST 从 中 断 返回 






拷贝 字符 串 
条 件 码 指令 


件 码 
设置 EFLAGS 寄存 器 中 的 进位 位 
清除 EFLAGS 寄存 器 中 的 进位 位 
EFLAGS 中 的 补 码 进位 位 
[STD _ 


CMOV DST,SRC | 条件 拷贝 


AD 
D 
















,SRC 








ULSRC 
EG DST 







DST HUS ( 也 就 是 0-DST ) 



















二 进 制 编码 的 十 进 制 数 指令 
逻辑 指令 
条 类 指令 


改变 DST 的 字 节 顺序 
为 了 进行 除法 ， 把 EAX 扩展 成 


EDX: EAX 
OP 
HLT 


测试 /比较 指令 






CWQ 



















EPE 









根据 SRCI-SRC2 的 结果 设置 标志 位 
SRC= 源 地 址 ，DST= 目的 地 址 ，# = 移 位 /循环 移 位 计数 ，LV= # locals 
图 5-33” 选 出 的 Core i7 整数 指令 


许多 Core i7 指令 使 用 在 内 存 或 者 寄存 器 中 的 一 个 或 者 两 个 操作 数 。 例 如 双 操 作 数 的 
ADD 指令 把 源 操 作 数 加 到 目的 操作 数 中 ， 而 单 操作 数 的 INC 指令 对 它 的 操作 数 加 1。 某 些 指 
令 有 几 个 相近 的 变 体 。 比 如 ， 移 位 指令 可 以 向 左 移 位 也 可 以 向 右 移 位 ， 可 以 处 理 符号 位 也 可 
以 不 处 理 符号 位 。 根 据 操 作 数 的 类 别 ， 大 多 数 指令 都 有 不 同 编码 方式 的 变 体 。 

在 图 5-33 中 ，SRC 域 是 信息 源 ， 它 不 能 被 修改 。 与 此 对 应 ，DST 域 是 目的 地 址 ， 其 值 通 
常 被 指令 的 结果 修改 。 源 地 址 和 目的 地 址 的 使 用 是 有 规定 的 ， 这 种 规定 根据 指令 的 不 同 而 不 
同 ， 这 里 我 们 就 不 详细 讨论 了 。 许 多 指令 都 有 三 种 变 体 ， 分 别 对 应 于 8 位 、16 位 和 32 位 操作 
数 。 它 们 是 由 操作 码 与 上 /或 上 指令 中 的 一 位 来 区 分 的 。 图 5-33 中 列 出 的 主要 是 32 位 指令 。 

为 了 便于 讨论 ， 我 们 把 指令 分 成 几 组 。 第 一 组 包括 在 寄存 器 、 内 存 和 栈 之 间 移 动 数 据 的 
指令 。 第 二 组 是 算术 指令 ， 包 括 带 符号 的 和 无 符号 的 。 对 于 乘法 指令 和 除法 指令 ，64 位 的 乘 
积 或 者 被 除数 的 低位 部 分 保存 在 EAX 中 ， 高 位 部 分 保存 在 EDX 中 。 

第 三 组 指令 进行 二 进 制 编码 的 十 进 制 数 (BCD ) 运算 。 每 个 字 节 被 分 成 两 个 4 位 的 半 字 
节 (nibble )， 每 个 半 字 节 存 放 一 个 十 进 制 位 (0 ~ 9)。1010 ~ 1111 的 编码 没有 用 到 。 这 样 ， 
一 个 16 位 整数 能 保存 的 十 进 制 数 的 范围 是 0 ~ 9999。 虽 然 这 种 存储 方式 的 效率 不 高 ， 但 是 
我 们 不 再 需要 把 输入 的 十 进 制 数 转换 成 二 进 制 数 ， 输 出 时 再 转换 回来 。 这 些 指 令 用 于 BCD 数 
的 算术 运算 ， 它 们 在 COBOL 程序 中 很 常用 。 

逻辑 指令 和 移 位 / 循环 移 位 指令 用 几 种 不 同 的 方式 处 理 字 或 者 字 节 中 的 位 。 这 里 提供 了 
几 种 不 同 的 组 合 。 

接 下 来 两 组 指令 的 工作 是 测试 和 比较 ， 并 根据 结果 执行 跳 转 。 测 试 和 比较 指令 的 结果 存 
放 在 EFLAGS 寄存 器 中 的 不 同 的 位 中 。Jxx 代表 一 组 条 件 转移 指令 ， 它 根据 前 一 次 比较 的 结 
果 进 行 跳 转 (也 就 是 根据 EFLAGS 中 的 位 进行 跳 转 )。 

Core i7 有 几 条 用 于 存 、 取 、 转 移 、 比 较 和 扫描 字符 串 或 字 串 的 指令 。 这 些 指令 可 以 加 上 
一 个 特殊 的 、 称 为 REP 的 前 级 ， 它 可 以 使 指令 重复 执行 直到 满足 特定 的 条 件 ， 比 如 说 ECX 
变 成 0( 在 每 次 循环 时 ECX 都 要 减 1 )。 用 这 种 方式 ， 我们 可 以 对 任意 大 小 的 数据 块 进行 转移 、 
比较 等 操作 。 下 一 组 管理 条 件 代码 。 

最 后 一 组 是 杂 类 指令 ， 包 括 转换 指令 、 栈 管理 指令 、CPU 停机 指令 和 IO 指令 。 

Core i7 中 使 用 了 一 些 前 缀 ， 我 们 前 面 已 经 提 到 过 的 REP 就 是 其 中 之 一 。 前 缀 是 可 以 位 于 
大 多 数 指令 之 前 的 一 个 特殊 的 字 节 ， 类 似 于 IJVM 中 的 WIDE。 前 面 已 经 介绍 过 ，REP 前 级 
使 指令 重复 执行 直到 ECX 变 成 0。 而 REPZ 和 REPNZ 前 级 则 分 别 表 示 重 复 执行 下 一 条 指令 
直到 Z 条 件 码 为 1、 为 0。LOCK 前 缀 为 整 条 指令 保留 总 线 ， 以 允许 多 处 理 机 同步 。 其 他 的 前 
级 用 于 使 指令 运行 于 16 位 模式 或 者 32 位 模式 下 ， 这 不 仅 需 要 改变 操作 数 的 长 度 而 且 需 要 彻 
底 地 重新 定义 寻 址 方式 。 最 后 一 点 ，Core i7 使 用 了 一 种 复杂 的 分 段 策略 ， 包 括 代码 段 、 数 据 
段 、 段 和 附加 段 ， 这 种 策略 继承 自 8088。 访 问 内 存 时 可 以 用 前 绥 表 示 使 用 特殊 的 段 ， 幸 运 的 
是 这 些 和 我 们 没什么 关系 。 


5.5.9 OMAP4430 ARM CPU 指令 系统 


图 5-34 中 是 ARM 指令 系统 中 所 有 可 以 被 编译 器 生成 的 用 户 模式 下 的 整数 指令 。 图 中 没 
有 列 出 浮 点 数 指令 ， 也 没有 列 出 控制 指令 ( 如 高 速 缓存 管理 指令 和 系统 重启 指令 )、 涉 及 非 用 
户 地 址 空间 的 指令 和 扩展 指令 集 ( 例如 Thumb )。 这 个 指令 集 相 当 小 ， 看 来 OMAP4430 ARM 
ISA 确实 是 一 台 精 简 指 令 集 计 算 机 。 
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读 取 数 据 指令 


加 载 带 符号 的 字 节 (8 位 ) 
加 载 天 符号 字 节 (8 位) 
加 载 带 符号 的 半 字 (16 位 ) 


保存 数据 指令 
IPEE OSTE) 















算术 指令 
PC+REG 

S1= 源 寄 存 器 S2IMM= 源 寄存 器 或 立即 数 
S3= 源 寄 存 器 ( 当 使 用 3 个 源 寄存 器 时 ) DST= 目的 寄存 器 
D1= 第 一 个 目的 寄存 器 D2= 第 二 个 目的 寄存 器 
ADDR= 内 存 地 址 IMM= 立即 数 
REGLIST= 寄存 器 列表 PSR= 处 理 回 状态 寄存 器 
cc= 分支 条 件 


图 5-34 OMAP4430 ARM CPU 中 主要 的 整数 指令 


LDR 指令 和 STR 指令 一 目 了 然 ， 它 们 分 别 有 对 应 1 字 节 、2 字 节 和 4 字 节 的 版 本 。 当 
一 个 少 于 32 位 的 数 被 取 入 一 个 32 位 的 寄存 器 的 时 候 ， 这 个 数 或 者 被 符号 扩展 或 者 被 0 扩展 
( 译 者 注 : 在 左面 填充 0 )。 分 别 有 不 同 的 指令 对 应 这 两 种 处 理 方式 。 

下 一 组 是 算术 指令 ， 它 们 可 以 任意 地 设置 处 理 器 状态 寄存 器 的 条 件 码 位 。 在 CISC 计算 
机 中 ， 大 多 数 指令 都 设置 条 件 码 ， 但 在 RISC 计算 机 中 这 样 的 做 法 不 受 欢迎 ， 因 为 它 限 制 了 
编译 器 的 自由 ， 使 编译 器 不 能 自由 移动 指令 以 减少 执行 时 间 。 如 果 原 来 的 指令 序列 是 A…B… 
C， 其 中 A 设置 条 件 位 ,而 了 B 测试 条 件 位 ， 这 样 如 果 C 也 设置 条 件 位 ， 编 译 器 就 不 能 把 C 插 
到 A 和 B 之 间 。 因 此 许多 指令 都 提供 了 两 个 版 本 ， 正常 情况 下 编译 器 可 以 使 用 不 设置 条 件 位 
的 版 本 ， 当 需要 在 后 面 测 试 条 件 位 时 就 使 用 设置 条 件 位 的 版 本 。 程 序 员 通过 添加 一 个 “S” 到 
指令 操作 码 名 字 的 末尾 来 分 辨 条 件 码 的 设置 ， 例 如 ADDS。 指 令 中 的 一 位 向 处 理 器 表明 条 件 
码 需要 被 设置 。 这 同样 也 支持 乘法 和 乘法 累加 指令 。 
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移 位 指令 包括 一 条 左 移 指令 和 两 条 右 移 指令 ， 每 条 指令 都 在 32 位 寄存 器 上 进行 操作 。 循 
环 右 移 指令 在 寄存 器 中 进行 位 的 循环 移 位 ， 移 除 最 低 有 效 位 的 位 会 重新 出 现在 最 高 有 效 位 上 。 
移 位 操作 绝 大 多 数 用 来 进行 位 操作 。 循 环 移 位 在 密码 学 和 图 像 处 理 操 作 中 非常 有 用 。 大 多 数 
CISC 计算 机 中 有 许多 条 移 位 和 循环 移 位 指令 ， 其 中 大 部 分 是 没 用 的 。 几 乎 不 会 有 编译 器 的 设 
计 者 因为 思念 这 些 被 抛弃 的 指令 而 夜 不 能 襟 。 

逻辑 指令 和 算术 指令 很 相似 。 它 包括 AND, EOR, ORR, TST, TEQ 和 BIC。 后 三 条 指 
令 的 作用 令 人 怀疑 ， 但 它们 都 可 以 在 一 个 周期 内 完成 而 且 不 需要 额外 的 硬件 ， 因 此 也 被 放 人 
指令 集中 。 看 来 即使 是 RISC 计算 机 的 设计 者 也 常常 会 禁不住 诱惑 。 

下 一 组 是 控制 转移 指令 。Bcc 代表 一 组 根据 不 同 的 条 件 跳 转 的 指令 ，BLcc 在 根据 不 同 的 条 件 
跳 转 这 一 点 上 很 相似 ， 但 它 同时 把 下 一 条 指令 的 地 址 保存 在 连接 寄存 器 (R14 ) 中 ， 这 条 指令 在 
实现 过 程 调用 时 很 有 用 。 和 所 有 其 他 的 简单 指令 集 架 构 不 同 ，ARM 中 没有 显 式 地 跳 往 寄存 器 地 
址 的 指令 。 这 个 指令 可 以 很 容易 使 用 MOV 指令 和 将 目的 地 址 设置 为 程序 计数 器 〈R15 ) 来 合成 。 

有 两 种 方法 可 用 于 调用 过 程 。 第 一 种 BLee 指令 使 用 了 图 5-14 所 示 的 使 用 24 位 PC 相对 
字 偏 移 的 “分 支 ” 格 式 。 在 调用 的 时 候 ， 这 个 偏 移 值 可 以 在 任意 方向 上 达到 32MB。 第 二 种 
BLec 指令 的 跳 转 地 址 是 保存 在 指定 寄存 器 中 的 ， 这 个 特性 可 以 用 来 实现 动态 地 址 的 过 程 调 用 
(例如 ，C++ 的 虚 函 数 ) 或 超过 32MB 范围 的 调用 。 

最 后 一 组 包括 一 些 杂 类 指令 。MOVT 是 必须 的 ， 因 为 没有 方法 将 一 个 32 位 立即 操作 数 
放 入 寄存 器 中 。 但 是 我 们 可 以 先 使 用 MOVT 设置 操作 数 的 高 16 位， 再 让 下 一 条 指令 用 立即 
数 格式 设置 低 16 2. MRS 和 MSR 指令 允许 读 取 或 设置 寄存 器 状态 字 (PSR). SWP 指令 可 
以 进行 寄存 器 和 内 存 地 址 间 的 原子 交换 操作 。 这 些 指令 实现 了 多 处 理 器 同步 的 基础 ， 我 们 将 
在 第 8 章 进行 更 细致 的 学 习 。 最 后 ，SWI 指令 可 以 启动 一 个 软件 中 断 ， 这 是 非常 花哨 的 启动 
系统 调用 的 方式 。 


5.5.10 ATmega168 AVR 指令 系统 


ATmegal68 有 一 个 简单 的 指令 集 ， 指 令 集 的 第 一 部 分 如 图 5-35 所 示 。 每 行 给 出 了 助 记 
符 、 简 短 说 明 以 及 一 小 段 说 明 指令 功能 的 伪 代 码 。 正 像 我 们 预期 的 那样 ，ATmegal168 有 一 组 
MOV 指令 ， 用 来 在 寄存 器 之 间 移 动 数 据 。ATmegal168 也 有 人 栈 和 出 栈 指令 ， 它 使 用 一 个 16 
位 的 专用 寄存 器 一 一 栈 指 针 寄 存 器 (SP) 来 指示 内 存 。ATmegal168 内 存 访问 的 方式 有 立即 数 
寻 址 、 寄 存 器 间接 寻 址 ， 或 寄存 器 间接 寻 址 加 上 一 个 偏 移 量 。 为 了 支持 最 大 64KB 的 寻 址 ， 
使 用 立即 数 寻 址 的 加 载 指令 是 32 位 的 指令 。 间 接 寻 址 模式 使 用 X、Y、Z 三 个 寄存 器 对 来 实现 ， 
寄存 器 对 将 两 个 8 位 的 寄存 器 组 合 在 一 起 来 实现 一 个 16 位 的 指针 寄存 器 。 

ATmegal68 具有 简单 的 算术 指令 来 完成 加 、 减 和 乘 ， 其 中 乘 使 用 两 个 寄存 器 。 自 增 和 自 
减 也 实现 了 ， 并 被 常常 使 用 ， 此 外 ， 逻 辑 、 移 位 、 循 环 移 位 等 指令 也 在 该 指令 集中 呈现 。 分 
支 和 调用 指令 能 使 用 立即 数 地 址 、PC 相对 地 址 或 者 Z 寄存 器 对 中 的 地 址 来 作为 目的 地 址 。 


ADD DSTSRC DST + DST+SRC 













图 5-35 ATmegal68 指令 集 
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带 进位 的 减法 









DST ~ DST-1 
| UMP | 间接 跳 转 到 Z 寄 存 器 对 中 的 地 址 | PC 一 ZIR30R3D | 
a 
: 
带 进位 位 的 比较 DST-SRC-C 


ST-IMM 

if cc ( true ) PC +— PC+IMM+1 
ST «— SRC 

DST+1:DST <— SRC+1:SRC 
ST — IMM 
ST — MEM[IMM] 
ST — MEM[XYZ] 


与 立即 数 比较 
带 条 件 的 分 支 
复制 寄存 器 中 的 值 
复制 寄存 器 对 
加 载 立即 数 
直接 加 载 

间接 加 载 
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ST  MEM[XYZ+IMM] 
MEM[IMM] 一 SRC 
STD XYZ+IMM,SRC MEM[XYZ+IMM] < SRC 
STACK + REGLIST 
SRC= 源 寄 存 器 XYZ=X、Y 或 Z 寄 存 器 对 DST= 目的 寄存 器 
MEMI[A]= 访问 地 址 A 的 内 存 内 容 IMM= 立即 数值 


图 5-35 ( 续 ) 
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5.5.11 指令 集 比较 


前 面 例 子 中 讨论 的 三 种 指令 集 差别 很 大 。Core i7 是 一 种 典型 的 双 地 址 32 位 CISC 芯片 ， 
它 有 很 长 的 历史 ， 有 特殊 的 和 不 规则 的 寻 址 方式 ， 还 有 许多 访问 内 存 的 指令 。 

OMAP4430 ARM CPU 是 一 种 现代 的 三 地 址 的 32 位 RISC 芯片 ， 它 使 用 加 载 /存储 结构 ， 
只 有 很 少 的 几 种 寻 址 方式 ， 还 有 一 个 简单 而 有 效 的 指令 集 。ATmegal168 AVR 体系 结构 上 是 一 
个 小 型 髋 入 式 处 理 器 ， 目 的 是 为 了 适应 单 片 设计 。 

每 种 计算 机 的 设计 都 有 其 合理 性 。Core i7 的 设计 是 由 以 下 三 个 主要 因素 决定 的 : 

1 ) 向 后 兼容 。 

2) 向 后 兼容 。 

3) 向 后 兼容 。 

在 目前 的 技术 条 件 下 ,没有 人 会 设计 这 样 一 种 没有 规律 的 计算 机 ， 而 且 它 的 寄存 器 太 少 
了 ， 其 中 大 部 分 的 用 法 还 不 一 致 。 这 使 编写 编译 器 相当 困难 。 缺 少 寄 存 器 迫使 编译 器 不 得 不 
经 常 把 变量 放 人 内 存 ， 需 要 的 时 候 再 重新 取出 。 即 使 有 两 级 或 者 三 级 cache， 这 也 是 一 个 沉重 
的 负担 。 而 在 这 种 指令 系统 层 的 限制 下 ，Core i7 还 是 非常 快 ， 这 证 明了 Intel 的 工程 师 的 水 平 
确实 相当 高 。 但 是 正如 我 们 在 第 4 章 中 看 到 的 那样 ，Core i7 的 实现 非常 复杂 。 

OMAP4430 ARM 代表 了 目前 指令 系统 层 的 设计 水 平 。 它 有 一 个 全 32 位 的 指令 系统 层 。 它 
有 大 量 的 寄存 器 ， 指 令 集 偏重 于 三 寄存 器 操作 ， 还 有 一 小 部 分 LOAD 和 STORE HS. BRS 
格式 有 点 偏 多 ,但 是 所 有 的 指令 长 度 是 一 样 的 。 尽 管 如 此 ，OMAP4430 ARM 仍然 是 一 个 简单 明 
了 而 且 效 率 很 高 的 实现 。 大 多 数 新 设计 都 类 似 于 OMAP4430 ARM， 只 不 过 指令 格式 要 少 一 些 。 

ATmegal68 AVR 具有 相当 简单 和 规则 的 指令 集 ， 指 令 数量 和 寻 址 方式 也 很 少 。 它 的 特殊 
之 处 是 具有 32 个 8 位 寄存 器 、 快 速 访问 数据 、 访 问 内 存 空间 中 的 寄存 器 ， 并 且 还 有 令 人 惊叹 
的 位 操作 指令 。ATmegal168 因为 能 够 用 少量 的 晶体 管 实现 而 久负盛名 ， 一 个 硅 片 上 可 以 生成 
大 量 的 ATmega168 芯片 ， 这 就 使 得 每 个 CPU 的 成 本 能 够 做 到 非常 低 。 


5.6 ”控制 流 


控制 流 指 的 是 指令 的 动态 执行 序列 ， 也 就 是 程序 执行 过 程 中 的 指令 序列 。 一 般 来 说 ， 如 
果 没 有 转移 指令 和 过 程 调 用 指令 ， 程 序 将 从 连续 的 内 存单 元 中 取出 指令 顺序 执行 。 过 程 调用 
使 控制 流 发 生 改 变 ， 发 生 过 程 调用 时 ， 程 序 会 暂停 当前 正在 执行 的 过 程 并 开始 执行 被 调用 的 
过 程 。 程 序 的 协同 过 程 ( coroutine ) 也 会 使 控制 流 发 生 相 似 的 改变 。 它 们 常用 于 模拟 并 行 过 
程 。 由 于 特定 条 件 发 生 而 导致 的 陷阱 和 中 断 也 会 改变 控制 流 。 下 面 我 们 来 讨论 这 些 问 题 。 


5.6.1 顺序 控制 流 和 转移 


大 多 数 指令 不 改变 控制 流 。 当 一 条 指令 执行 完 之 后 ， 接 着 从 内 存 中 取出 下 一 条 指令 执 
行 。 每 条 指令 执行 之 后 ， 程 序 计数 器 都 要 加 上 这 条 指令 的 长 度 。 如 果 观 察 时 间 和 平均 指令 执 
行 时 间 相 比 足 够 长 ， 就 会 发 现 程序 计数 器 近似 是 时 间 的 线性 函数 ， 每 平均 指令 执行 时 间 增 加 
平均 指令 长 度 。 换 一 种 方式 来 表达 ， 处 理 器 实际 执行 指令 的 动态 顺序 和 指令 在 程序 清单 中 的 
静态 顺序 是 一 样 的 ， 如 图 5-36a 所 示 。 如 果 程 序 中 有 转移 指令 ， 那 么 指令 在 内 存 中 的 顺序 和 
动态 执行 的 顺序 就 不 一 致 了 。 当 发 生 转 移 时 ， 程 序 计 数 器 就 不 再 是 时 间 的 单调 增 函 数 了 ， 如 
图 5-36b 所 示 。 如 果 有 转移 指令 ， 从 程序 清单 中 分 析 指 令 执 行 顺序 就 比较 困难 。 
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ae SE a 





时 间 时 间 
a) 没有 跳 转 b) 有 跳 转 


图 5-36 ”程序 计数 器 和 时 间 的 函数 关系 (经 过 了 平滑 处 理 ) 


如 果 程 序 员 对 于 处 理 器 实际 执行 的 指令 顺序 不 是 很 清楚 ， 程 序 就 可 能 产生 错误 。Dijkstra 
在 1968 年 就 观察 到 这 一 现象 ， 并 写 了 一 封 当 时 引起 很 大 争议 的 名 为 “goto 语句 十 分 有 害 ” 的 
信 (1968a )。 在 这 封 信 中 ,他 建议 不 要 使 用 goto 语句 。 这 封 信 引 发 了 结构 化 编程 的 革命 ， 结 
构 化 编程 的 一 个 原则 就 是 把 goto 语句 换 成 更 加 结构 化 的 控制 流 形式 ， 比 如 while 循环 语句 。 
当然 ， 这 些 程序 编译 成 第 2 级 的 程序 后 可 能 会 包括 许多 转移 指令 ， 因 为 让 、while 和 其 他 的 高 
级 控制 结构 需要 用 转移 指令 来 实现 。 


5.6.2 过程 


结构 化 程序 中 使 用 的 最 重要 的 技术 是 过 程 。 从 某 方面 来 看 ,过程 调 用 和 转移 指令 一 样 改 
变 程序 的 控制 流 ， 但 是 和 转移 指令 不 一 样 的 是 ， 当 过 程 结 束 它 的 任务 时 ， 它 将 控制 权 交还 给 
调用 语句 之 后 的 语句 或 者 指令 。 

但 是 从 另 一 个 方面 来 看 ， 过 程 可 以 被 看 作 是 定义 了 一 条 高 层 的 指令 。 从 这 个 观点 来 看 ， 
无 论 一 个 过 程 多 么 复杂 ， 过 程 调用 都 可 以 被 看 作 是 一 条 单独 的 指令 。 理 解 一 段 包含 过 程 调用 
的 代码 时 ， 我 们 只 需要 知道 这 个 过 程 是 做 什么 的 ， 而 不 需要 知道 它 是 怎么 做 的 。 

递归 过 程 是 一 种 很 有 趣 的 过 程 。 递 归 过 程 是 一 个 直接 调用 自身 ， 或 者 通过 一 系列 其 他 过 
程 间接 调用 自身 的 过 程 。 研 究 递归 过 程 可 以 使 我 们 深入 地 了 解 过 程 调用 是 如 何 实现 的 ， 以 及 
局 部 变量 的 含义 到 底 是 什么 。 下 面 我 们 给 出 递归 过 程 的 一 个 例子 。 

“ 汉 诺 塔 ”问题 是 一 个 古老 的 问题 ， 它 有 一 个 使 用 递归 算法 的 简单 解决 方案 。 在 汉 诺 的 一 
个 寺庙 中 ， 有 三 根 黄金 的 柱子 。 第 一 根 柱子 上 有 64 
个 同心 的 金 盘 ， 它 们 通过 中 心 的 圆 孔 套 在 柱子 上 。 


pen 
每 个 盘子 的 直径 都 比 它 下 面 的 盘子 稍微 小 一 些 。 开 o e i 
始 时 ， 第 二 根 和 第 三 根 柱子 是 空 的 。 寺 让 中 的 僧人 
伦 着 把 所 有 的 贺 盘 转移 到 第 三 根 柱子 上 ， 一 次 只 能 全 
移动 一 个 加 盘 而 且 在 任何 时 候 大 盘 者 不 能 放 在 小 盘 OED 
的 上 面 。 据 说 ， 当 他 们 完成 的 时 候 ， 世 界 末日 就 会 ks 一 
来 到 。 如 果 你 希望 亲手 搬 盘 子 ， 可 以 少 用 一 些 塑料 SZ 
盘子 来 试 一 试 ， 当 然 当 你 解决 问题 之 后 ， 什 么 也 不 See 


会 发 生 。 为 了 得 到 世界 末日 的 效果 ， 你 需要 移动 全 
部 64 个 金 盘 。 图 5-37 中 是 初始 配置 n=5 个 盘子 的 ”图 5-37 5 个 盘子 的 汉 诺 塔 问题 的 初始 配置 
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例子 。 
把 n 个 盘子 从 柱 1 移 到 柱 3 的 方案 如 下 ， 首 先 把 n-1 个 盘子 从 柱 1 移 到 柱 2， 再 把 剩 下 
的 一 个 盘子 从 柱 1 移 到 柱 3， 最 后 把 n-1 个 盘子 从 柱 2 移 到 柱 3。 如 图 5-38 所 示 。 











-= A a | | 
十 | 1 
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图 5-38 解决 三 个 盘子 的 汉 诺 塔 问题 的 步骤 
为 了 解决 这 个 问题 ,我 们 需要 一 个 过 程 把 n 个 盘子 从 柱 i 移动 到 柱 j。 当 我 们 通过 


towers(n, i, j) 
调用 这 一 过 程 时 ， 它 就 会 打印 出 问题 的 解法 。 过 程 首先 测试 n 是 否 等 于 1。 如 果 是 1, 解法 就 
很 简单 了 ， 只 是 把 一 个 盘子 从 i 移 到 j ME. WR 关 1， 解 法 就 由 我 们 上 面 讨论 的 三 部 分 组 
成 ， 每 个 都 是 一 个 递归 调用 。 

完整 的 过 程 如 图 5-39 所 示 。 为 了 解决 图 5-38 中 的 问题 ， 我 们 调用 

towers(3, 1, 3) 
这 个 调用 又 生成 了 三 个 调用 ， 分 别 是 
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towers(2, 1, 2) 
towers(1, 1, 3) 
towers(2, 2, 3) 


而 第 一 个 和 第 三 个 调用 各 自 又 会 产生 三 个 调用 ， 这 样 一 共 就 是 七 次 调用 。 

为 了 实现 递归 过 程 ， 和 IJVM 一 样 ， 
我 们 需要 使 用 栈 保存 每 次 调用 的 参数 和 局 
部 变量 。 每 次 当 过 程 被 调用 时 ， 都 在 栈 顶 
为 它 分 配 一 个 新 的 栈 结构 。 最 后 创建 的 结 








public void towers(int n, int i, int j) { 
int k; 










if (n == 1) 
System.out.printin("Move a disk from "+i + "to" + j); 
else { 







构 是 当前 结构 。 在 我 们 的 例子 中 ， 栈 向 上 k=6-i-j; 
增长 ， 从 低地 址 到 高 地 址 ， 和 UVM 一 样 。 peg NE aa 





最 后 的 结构 的 地 址 比 其 他 的 结构 都 要 高 。 
除了 指向 栈 顶 的 栈 指针 之 外 ， 增 加 一 
个 指向 段 中 的 固定 位 置 的 段 指针 FP 会 给 
我 们 带 来 很 大 的 方便 。 在 IJVM 中 ， 它 指 图 5-39 解决 汉 诺 塔 问题 的 过 程 
向 链接 指针 或 者 是 第 一 个 局 部 变量 。 图 5-39 是 32 位 字 长 计算 机 的 栈 结构 。 对 towers 的 初始 调 
用 把 n、i AL] 压 人 栈 ， 然 后 执行 一 个 CALL 指令 把 返回 地 址 压 人 栈 地 址 1012 处 。 在 入 口 处 ， 
被 调 过 程 把 老 的 FP 值 (1000) 压 人 栈 中 1016 处 ， 然 后 前 移 栈 指针 为 局 部 变量 分 配 空间 。 由 
于 只 有 一 个 32 位 的 局 部 变量 (k)，SP 加 4 指向 1020。 图 5-39a 就 是 这 些 都 完成 之 后 的 情况 。 
被 调用 的 过 程 做 的 第 一 件 事 是 保存 以 前 的 FP ( 这 样 在 过 程 退出 之 后 FP 才能 恢复 )， 然 
后 把 SP 拷贝 到 FP 中 ， 根 据 新 的 FP 指向 的 位 置 的 不 同 ， 可 能 会 加 上 一 个 字 。 在 这 个 例子 中 ， 
FP 指向 第 一 个 局 部 变量 ， 而 在 IJVM 中 ，LV 指向 链接 指针 。 不 同 的 计算 机 在 处 理 结构 指针 时 
稍微 有 些 不 同 ， 有 些 把 它 放 在 栈 的 底部 ， 有 些 则 把 它 放 在 顶部 ， 图 5-40 中 则 是 放 在 中 部 。 在 
这 个 问题 上 ,我 们 可 以 比较 图 5-40 和 图 4-12 来 看 一 看 两 种 不 同 的 管理 链接 指针 的 方式 。 还 可 
能 有 一 些 其 他 的 方式 。 在 所 有 的 方式 中 ， 关 键 的 问题 在 于 过 程 能 够 返回 ， 而 且 返 回 之 后 栈 应 
该 恢复 到 当前 过 程 调用 之 前 的 状态 。 


towers(n — 1, k, j); 
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图 5-40 ”执行 图 5-39 中 的 过 程 时 栈 的 变化 
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保存 旧 的 结构 指针 ， 建 立新 的 结构 指针 ， 前 移 结构 指针 为 局 部 变量 保留 空间 的 代码 称 为 
过 程 启动 代码 (procedure prolog )。 在 过 程 退 出 之 后 ， 栈 被 再 次 清空 ， 这 些 代码 称 为 过 程 结 束 
代码 ( procedure epilog )。 过 程 启动 、 结 束 代码 的 长 度 、 速 度 的 快慢 是 计算 机 的 重要 特性 。 如 
果 它 们 非常 宛 长 且 效 率 低 下 ， 过 程 调用 的 代价 将 会 很 大 。 尝 尚 效 率 的 程序 员 会 避免 写 大 量 的 
短 过 程 而 写 大 的 、 单 一 的 、 非 结构 化 的 程序 。Core i7 的 ENTER Ñ LEAVE 指令 可 以 高 效率 地 
处 理 大 多 数 的 过 程 启动 和 结束 。 当 然 ， 它 们 有 一 个 管理 结构 指针 的 特殊 的 模式 ， 如 果 编 译 器 
使 用 了 其 他 不 同 的 模式 ， 就 不 能 使 用 这 两 条 指令 了 。 

下 面 我 们 回 到 汉 诺 塔 问题 。 每 次 过 程 调用 都 在 栈 中 增加 一 个 新 结构 ， 每 次 过 程 返回 都 从 
栈 中 把 该 结构 删除 。 为 了 举例 说 明 如 何 使 用 栈 来 实现 递归 过 程 ， 我 们 跟踪 调用 

towers(3, 1, 3) 
图 5-40a 是 该 调用 语句 执行 后 的 栈 情况 。 过 程 首先 测试 n 是 否 等 于 1， 发 现 "=3 后 , 计算 k 值 
并 继续 执行 调用 

towers(2, 1, 2) 
这 次 调用 完成 后 ， 栈 如 图 5-40b 所 示 。 过 程 再 次 从 开始 处 执行 ( 被 调用 的 过 程 总 是 从 开始 处 
执行 )。 这 次 对 n=1 的 测试 又 失败 了 ， 再 次 计算 大 值 执行 调用 
towers(1, 1, 3) 

现在 的 栈 情况 如 图 5-40c 所 示 ， 而 程序 计数 器 指向 过 程 的 开始 处 。 这 一 次 测试 成 功 并 打印 出 
一 行 结果 。 接 下 来 ， 过 程 删除 当前 栈 结构 并 重 置 FP 和 SP 后 返回 ， 如 图 5-40d 所 示 。 然 后 在 
返回 地 址 处 继续 执行 第 二 次 调用 

towers(1, 1, 2) 
它 又 在 栈 中 增加 一 个 新 结构 ， 如 图 5-40e 所 示 。 另 一 行 结果 被 打印 出 来 ,返回 之 后 ， 该 结构 
从 栈 中 删除 。 过 程 调用 按照 这 种 方式 继续 执行 直到 初始 的 调用 执行 完毕 而 且 图 5-40a 的 栈 结 
构 从 栈 中 删除 为 止 。 为 了 更 好 地 理解 递归 是 如 何 工作 的 ,我们 推荐 你 用 纸 和 笔 把 

towers(3, 1, 3) 
的 完整 的 执行 过 程 画 出 来 。 
5.6.3 ”协同 过 程 


在 一 般 的 调用 序列 中 ， 主 调 过 程 和 被 调 过 程 有 明显 的 区 别 。 思 考 一 下 如 图 5-41 展示 的 过 
程 A 调用 过 程 B 的 例子 。 

WE B 执行 一 会 计算 后 返回 A。 第 一 眼看 这 个 过 程 你 可 能 会 认为 它 是 对 称 的 ， 因 为 A 和 
B 都 不 是 主 程序 ， 都 是 过 程 。( 过 程 A 可 能 是 被 主 程序 调用 的 ， 但 这 无 关 紧 要 。) 而 且 ， 过 程 
调用 时 控制 权 从 A 转 到 B， 返 回 时 再 从 B 转 到 A。 

事实 上 这 个 过 程 是 不 对 称 的 ， 当 控制 权 从 A 转 到 B 时 ，B 从 第 一 条 语句 开始 执行 ， 当 
控制 权 从 B 返回 A 时 ，A 并 不 是 从 第 一 条 语句 开始 执行 而 是 从 调用 之 后 的 语句 处 开始 执行 。 
如 果 过 一 会 A 再 次 调用 B， 则 会 再 次 从 B 的 第 一 条 语句 开始 执行 ， 而 不 是 从 B 的 返回 语句 
处 执行 。 如 果 在 运行 过 程 中 ，A 多 次 调用 B， 那 么 每 次 B 都 将 从 开始 处 执行 ， 而 A 则 不 会 
回 到 开始 。 
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在 A 和 B 之 间 转 移 控 制 权 的 方法 反映 了 这 种 不 对 称 性 。 当 A 调用 B 的 时 候 ， 它 使 用 过 
程 调 用 指令 ， 该 指令 会 把 返回 地 址 〈 也 就 是 调用 指令 的 下 一 条 语句 的 地 址 ) 放 在 某 个 地 方 ， 
比如 说 ， 栈 项 。 然 后 把 B 的 地 址 放 入 程序 计数 器 并 结束 调用 指令 。 当 B 返回 时 ， 它 并 不 使 用 
调用 指令 而 是 使 用 返回 指令 ， 该 指令 的 操作 就 是 从 栈 中 弹出 返回 地 址 并 放 人 程序 计数 器 。 


A B 
调用 过 程 被 调用 过 程 


来 自主 程序 的 调用 


返回 到 主 程序 





图 5-41 调用 一 个 过 程 时 ， 总 是 从 该 过 程 的 第 一 条 语句 开始 执行 


有 时 候 我 们 需要 两 个 过 程 A 和 B， 每 个 都 能 把 对 方 当 作 过 程 来 调用 ， 如 图 5-42 所 示 。 和 
上 面 的 过 程 一 样 ， 当 B 返回 A 时，A 执行 调用 B 后 的 语句 。 当 A 把 控制 权 交 给 B 时 ，B 并 
不 是 从 开始 处 执行 〈 第 一 次 除外 )， 而 是 从 最 近 的 一 次 “返回 ”指令 往 下 执行 ， 也 就 是 最 近 的 
一 次 对 A 的 调用 。 像 这 样 工作 的 两 个 过 程 我 们 称 为 协同 过 程 ( coroutine )。 

协同 过 程 通 常用 于 在 单个 CPU 上 模拟 并 发 进程 。 尽 管 只 有 一 个 CPU， 但 每 个 协同 过 程 
都 好 像 和 别 的 过 程 同 时 运行 。 这 种 类 型 的 程序 可 以 使 我 们 比较 容易 地 实现 某 些 应 用 。 它 也 可 
以 用 于 测试 为 多 处 理 器 设计 的 软件 。 

调用 协同 过 程 时 不 能 使 用 通常 的 CALL 指令 和 RETURN 指令 ， 虽 然 转 移 地 址 和 
RETURN 一 样 是 来 自 栈 ,但 是 和 RETURN 不 一 样 的 是 协同 过 程 调用 时 必须 把 返回 地 址 放 
在 某 个 地 方 留待 返回 时 使 用 。 如 果 有 一 条 指令 能 交换 栈 顶 和 程序 计数 器 的 值 就 再 好 不 过 了 o 
详细 地 说 ， 这 条 指令 首先 把 旧地 址 从 栈 顶 弹出 并 存 人 一 个 内 部 寄存 器 ， 再 把 程序 计数 器 的 
值 压 入 栈 ， 最 后 把 内 部 寄存 器 的 值 存 人 程序 计数 器 。 因 为 有 一 个 字 出 栈 和 一 个 字 和 人 栈 ， 因 
此 栈 指针 保持 不 变 。 由 于 很 少 有 这 样 的 指令 ， 因 此 在 多 数 情况 下 我 们 需要 用 几 条 指令 来 模 
拟 这 条 指令 。 
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图 5-42” 当 协同 过 程 继续 执行 时 ， 从 上 次 离开 的 地 方 执行 ， 而 不 是 从 开始 处 执行 


5.6.4 ”陷阱 


陷阱 是 一 种 自动 的 过 程 调用 ， 程 序 在 某 些 条 件 下 会 自动 地 调用 它 ， 这 些 条 件 通 常 是 重要 
的 而 且 是 不 经 常 发 生 的 。 溢 出 是 陷阱 的 恰当 的 例子 。 在 许多 计算 机 中 ， 如 果 算 术 运 算 的 结果 
超过 了 计算 机 能 够 表示 的 最 大 数 ， 就 会 发 生 陷阱 ， 这 时 控制 权 就 会 转移 到 某 个 固定 的 内 存 位 
置 而 不 是 继续 执行 下 面 的 操作 。 在 这 个 固定 的 位 置 上 是 一 个 叫做 陷阱 处 理 (trap handler ) 的 
过 程 ， 它 将 执行 某 些 合适 的 操作 ， 比 如 打印 一 条 错误 消息 。 如 果 运 算 结果 在 可 以 表示 的 范围 
以 内 ， 就 不 会 发 生 陷 阱 。 

陷阱 的 最 本 质 的 特征 是 它 由 程序 本 身 产生 的 例外 条 件 引发 ， 由 硬件 或 者 微 程 序 检测 。 另 
一 种 处 理 溢出 的 方法 是 使 用 一 个 1 位 的 寄存 器 ， 当 发 生 溢出 时 该 寄存 器 置 1。 希 望 检查 溢出 的 
程序 员 必 须 在 每 条 算术 指令 之 后 写 上 一 条 “ 当 溢 出 位 被 置 1 时 则 跳 转 ” 的 指令 。 这 种 做 法 既 慢 
又 浪费 空间 。 和 这 种 由 程序 员 控制 的 显 式 的 检查 相 比 ， 陷 阱 既 节约 了 时 间 又 节省 了 存储 空间 。 

陷阱 可 以 由 微 程序 (或 者 硬件 ) 执行 的 显 式 的 检查 来 实现 。 当 检测 到 溢出 时 ， 陷 阱 地 址 
将 装 人 程序 计数 器 。 陷 阱 可 能 是 由 低级 程序 控制 执行 的 。 微 程序 执行 检查 和 由 程序 员 执 行 检 


查 相 比 可 以 节约 时 间 ， 因 为 它 易于 和 其 他 操作 重 倒 执行 。 它 同时 也 节省 了 存储 空间 ， 因 为 它 * 


只 放 在 一 个 地 方 ， 比 如 微 程序 的 主 循环 中 。 它 和 主 程序 中 算术 指令 的 出 现 次 数 无 关 。 
产生 陷阱 的 一 些 常 见 的 条 件 有 浮 点 数 溢 出 ( 上 溢 和 浮 点 数 下 溢 、 整 数 溢出 、 保 护 错 、 未 
定义 的 操作 符 、 栈 溢出 、 试 图 启动 不 存在 的 IO 设备 、 试 图 从 奇 地 址 读 取 一 个 字 、 除 0 错 。 


5.6.5 中断 


中 断 (interrupt) 是 一 种 控制 流 的 变化 ， 产 生 中 断 的 原因 并 不 是 正在 运行 的 程序 ， 而 通常 
是 和 IO 有 关 的 某 些 操作 。 例 如 ， 一 个 程序 要 求 磁盘 传送 数据 ， 并 告诉 磁盘 当 传送 完成 以 后 
产生 一 个 中 断 。 和 陷阱 一 样 ， 中 断 发 生 时 也 要 和 暂停 当前 正在 运行 的 程序 把 控制 权 转 交 给 中 断 
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处 理 程序 ， 由 中 断 处 理 程序 执行 适当 的 操作 。 当 中 断 处 理 程 序 完成 工作 以 后 ， 控 制 权 又 会 交 
回 被 中 断 的 程序 。 被 中 断 的 进程 重新 运行 时 必须 处 于 和 被 中 断 之 前 完全 相同 的 状态 ， 这 意味 
着 必须 把 所 有 的 内 部 寄存 器 恢复 成 中 断 之 前 的 值 。 

陷阱 和 中 断 的 最 本 质 的 区 别 在 于 : 陷阱 是 和 程序 同步 的 ， 而 中 断 则 是 异步 的 。 如 果 一 个 
程序 使 用 相同 的 输入 重复 运行 一 百 万 次 ,那么 每 次 在 相同 的 地 方 都 会 产生 陷阱 ， 而 中 断 则 不 
同 ， 比 如 说 ， 它 是 由 坐 在 终端 前 的 人 按 回 车 键 的 时 刻 决定 的 。 产 生 陷阱 的 可 重复 性 和 中 断 的 
不 可 重复 性 的 原因 是 陷阱 是 由 程序 直接 产生 的 ， 而 中 断 最 多 是 由 程序 间接 产生 的 。 

为 了 搞 清 楚 中 断 到 底 是 如 何 工作 的 ， 我 们 举 一 个 常见 的 例子 : 一 台 计 算 机 要 把 一 行 字符 
输出 到 一 台 终端 上 。 首 先 ， 系 统 软件 把 所 有 要 输出 的 字符 收集 到 一 个 缓冲 区 中 ， 用 一 个 全 局 
变量 ptr 指向 缓冲 区 的 起 始 处 ， 再 使 用 第 二 个 全 局 变量 count 记录 需要 输出 的 字符 数 。 接 下 来 ， 
系统 检查 终端 是 否 准备 好 ， 如 果 准 备 好 ， 就 输出 第 一 个 字符 ( 比如 ， 可 以 使 用 图 5-30 中 的 那 
些 寄 存 器 )。1/O 启动 之 后 ，CPU 就 可 以 空闲 下 来 去 执行 其 他 的 程序 或 者 做 一 些 其 他 的 事情 。 

一 段 时 间 之 后 ， 字 符 将 显示 在 屏幕 上 。 中 断 发 生 了 。 为 了 便于 说 明 ， 下 面 我 们 列 出 了 硬 
件 和 软件 的 工作 步骤 。 

1. 硬件 的 工作 

1 ) 设备 控制 器 在 系统 总 线 上 插入 中 断 请 求 信 号 后 启动 中 断 处 理 过 程 。 

2) 当 CPU 准备 好 处 理 中 断后 ， 它 在 总 线 上 插入 中 断 确认 信号。 

3) 当 设备 控制 器 检查 到 中 断 请 求 被 确认 后 ， 将 向 数据 总 线 发 送 一 个 标识 自己 的 小 整数 。 
这 个 小 整数 称 为 中 断 向 量 (interrupt vector )。 

4) CPU 从 总 线 上 移 除 中 断 向 量 并 把 它 暂 存 起 来 。 

5) 接 下 来 ，CPU 将 把 程序 计数 器 和 PSW ( 程序 状态 字 ) 人 栈 。 

6) 然后 ，CPU 使 用 中 断 向 量 作为 索引 到 内 存 低 端 的 一 个 表 中 查找 新 的 程序 计数 器 。 如 
果 程 序 计数 器 是 4 个 字 节 的 ， 那么 中 断 向 量 n 就 相应 地 代表 地 址 4n。 这 个 新 的 程序 计数 器 指 
向 产生 中 断 的 设备 的 中 断 处 理 程序 。 通 常 PSW 也 会 被 调用 或 修改 ( 比如 ,禁止 中 断 舱 套 )。 

2. 软件 的 工作 

1 ) 中 断 处 理 程 序 要 做 的 第 一 件 事 是 保存 所 有 的 寄存 器 以 便 将 来 可 以 恢复 它们 。 可 以 把 它 
们 保存 在 栈 中 或 系统 表 中 。 

2 ) 一 般 来 说 ， 一 个 中 断 向 量 对 应 一 类 设备 ， 因 此 中 断 处 理 程序 不 知道 是 哪 一 台 终 端 产 生 
的 中 断 。 通 过 读 取 某 些 设备 寄存 器 可 以 获得 终端 号 。 

3) 读 取 和 中 断 有 关 的 任何 其 他 信息 ， 比 如 状态 代码 等 。 

4) 如 果 发 生 了 VO 错误， 在 这 里 处 理 。 

5 ) 修改 全 局 变量 ptr 和 count. ptr 加 1 指向 下 一 个 字 节 ，count 减 1， 表示 又 输出 了 一 个 
字符 。count 大 于 0， 表 示 还 有 字符 要 输出 。 把 ptr 所 指 的 字符 拷贝 到 输出 缓冲 寄存 器 中 。 

6) 如 果 需 要 ， 则 输出 一 个 特定 的 代码 通知 设备 或 者 中 断 控 制 器 中 断 已 经 被 处 理 了 。 

7 ) 恢复 所 有 保存 的 寄存 器 。 

8 ) 执行 RETURN FROM INTERRUPT 指令 ， 把 CPU 恢复 到 中 断 发 生 以 前 的 模式 和 状 
态 。 计 算 机 继续 执行 被 中 断 的 工作 。 

和 中 断 有 关 的 一 个 重要 的 概念 是 透明 性 (transparency )。 当 中 断 发 生 时 ,计算 机 做 了 一 
些 工作 并 运行 了 一 些 代码 ， 但 是 当 所 有 的 工作 都 完成 以 后 ， 计 算 机 将 精确 地 回 到 中 断 发 生前 
的 状态 。 具 有 这 种 特性 的 中 断 处 理 程序 就 具有 透明 性 。 所 有 的 中 断 都 是 透明 的 ， 这 一 特点 可 
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以 使 中 断 比较 容易 理解 。 

如 果 一 台 计 算 机 只 有 一 台 LO 设备， 那么 中 断 将 按照 我 们 刚才 描述 的 那样 工作 ， 不 需要 
更 多 的 解释 。 但 是 ， 一 台大 型 计算 机 可 能 有 很 多 IO 设备 ， 在 同一 时 刻 可 能 有 多 台 代 表 不 同 
用 户 的 IO 设备 同时 运行 。 这 时 ， 就 有 可 能 发 生 当 一 个 中 断 处 理 程序 正在 运行 时 ， 第 二 台 IO 
设备 想 产 生 中 断 的 情况 。 415 

有 两 种 方法 可 以 解决 这 个 问题 。 第 一 种 做 法 是 为 当前 中 断 屏 项 今后 所 有 可 能 发 生 的 中 断 ， 
这 是 中 断 要 做 的 第 一 件 事情 ， 比 保存 寄存 器 中 的 内 容 的 优先 级 还 要 高 。 当 中 断 严 格 按 顺序 发 
生 时 ， 第 一 种 方法 就 可 以 让 问题 变 得 简单 。 但 是 对 于 那些 不 能 容忍 延 时 的 设备 来 说 ， 它 会 带 
来 一 些 问题 。 第 一 个 中 断 还 未 处 理 完 第 二 个 中 断 就 已 经 到 来 的 时 候 ， 就 会 发 生 数据 丢失 。 

当 计 算 机 使 用 对 响应 时 间 要 求 很 严格 的 IO 设备 时 ， 更 好 的 设计 方法 是 为 每 一 个 IO 设 
备 分 配 一 个 优先 级 ， 重 要 性 高 的 设备 优先 级 高 ， 重 要 性 低 的 设备 优先 级 低 。 相 应 地 ，CPU 也 
有 优先 级 ，CPU 的 优先 级 由 PSW 中 的 某 个 字段 决定 。 当 优先 级 为 n 的 设备 请 求 中 断 时 ， 相 
应 的 中 断 处 理 程序 也 应 该 运行 在 优先 级 no 

当 优 先 级 为 n 的 中 断 处 理 程序 运行 时 ， 任 何 优 先 级 低 于 n 的 设备 产生 的 中 断 请 求 都 将 被 
忽略 直到 该 中 断 处 理 程序 结束 ，CPU 回 到 用 户 程序 运行 状态 ( 优先 级 0 )。 另 一 方面 ,来 自 优 
先 级 高 于 的 设备 的 中 断 请 求 将 被 立即 处 理 。 

由 于 在 中 断 处 理 程序 执行 过 程 中 也 可 能 发 生 中 断 ， 为 了 管理 简单 ， 最 好 的 方法 就 是 使 
所 有 的 中 断 都 透明 人 处理。 我 们 举 一 个 多 级 中 断 的 简单 例子 。 一 台 计 算 机 有 三 台 IO 设备 、 打 
印 机 、 磁 盘 和 一 条 RS232 通信 线 ， 优 先 级 分 别 是 2、4 和 5。 初 始 时 刻 (二 0 ) 只 有 一 个 用 户 
程序 在 运行 ， 在 万 10 的 时 刻 忽 然 发 生 了 打印 机 中 断 。 于 是 打印 机 中 断 处 理 程序 (Interrupt 
Service Routine, ISR) 开始 运行 ， 如 图 5-43 所 示 。 








磁盘 中 断 
优先 级 4 保持 等 待 
RS232 ISR 完成 
磁盘 中 断 发 生 
打印 机 中 断 
优先 级 5 磁盘 ISR 完 成 
打印 机 中 断 打印 机 ISR 完 成 
优先 级 2 
0 10 15 20 25 35 40 
a at re | i i i 时 间 一 ~ 
用 户 。 ! 打 印 机 | RS232 1 磁盘 (打印 机 ! 用户 
程序 ! ISR! ISR ! ISR 1ISR ! 程序 
古语 I 用 户 1 Gs 栈 


图 5-43 ”发 生 多 次 中 断 的 时 序 图 


15 时 ，RS232 通信 线 想 引 起 注意 并 产生 了 中 断 。 由 于 RS232 通信 线 的 优先 级 (5 ) 高 [aro] 
于 打印 机 的 优先 级 (2)， 中 断 将 被 处 理 。 这 时 计算 机 正在 运行 打印 机 中 断 处 理 程序 ， 这 时 的 
计算 机 状态 将 被 保存 在 栈 中 ， 然 后 RS232 的 中 断 处 理 程序 开始 运行 。 

又 过 了 一 会 ,在 二 20 时 ， 磁 盘 的 工作 完成 后 想 请 求 服 务 。 但 是 ， 它 的 优先 级 (4) 低 于 
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当前 正在 运行 的 中 断 处 理 程序 (5 )， 因 此 CPU KEAN BT, PEETER. 25 时 ， 
RS232 的 处 理 结束 ， 计 算 机 将 返回 到 RS232 中 断 发 生 之 前 的 状态 ， 也 就 是 说 ， 继 续 运 行 优先 
级 为 2 的 打印 机 中 断 处 理 程序 。 只 要 CPU 一 回 到 优先 级 2， 甚 至 还 没有 来 得 及 执行 任何 一 条 
指令 ， 优 先 级 为 4 的 磁盘 中 断 就 会 被 允许 ， 同 时 磁盘 中 断 处 理 程序 就 会 开始 运行 。 当 它 结束 
时 ,打印 机 中 断 处 理 程序 继续 运行 。 最 后 ， 当 六 40 时 ， 所 有 的 中 断 处 理 程序 都 结束 了 ， 用 户 
程序 从 被 中 断 的 地 方 继续 执行 。 

从 8088 开始 ，Intel 的 CPU 芯片 就 只 有 两 个 中 断 级 别 (优先 级 ): 屏蔽 的 和 非 屏蔽 的 。 一 
般 来 说 ， 非 屏蔽 的 中 断 用 于 通知 CPU 发 生 了 比较 严重 的 问题 ， 比 如 说 内 存 校 验 错 。 所 有 的 
IO 设备 都 使 用 同一 个 屏蔽 中 断 。 

4 VO 设备 产生 中 断 时 ，CPU 使 用 中 断 向 量 作为 索引 到 一 张 有 256 个 表 项 的 表 中 检索 中 
断 服 务 程序 的 地 址 。 表 项 是 8 个 字 节 的 段 描 述 符 。 这 张 表 可 以 从 内 存 的 任何 地 方 开始 ， 使 用 
一 个 全 局 寄存 器 指向 它 的 起 始 位 置 。 

因为 只 有 一 个 可 用 的 中 断 级 别 ，CPU 没有 办 法 在 禁止 低级 别 中 断 的 同时 ， 人 允许 高 级 别 的 
中 断 请 求 中 断 中 级 别 的 中 断 处 理 程序 。 为 了 解决 这 个 问题 , Intel 使 用 了 外 部 的 中 断 控制 器 ( 比 
如 ，8259A )。 当 第 一 个 中 断 到 来 时 ， 比 如 说 ， 优 先 级 为 xn，CPU 将 被 中 断 。 如 果 接 着 发 生 了 
一 个 高 级 别 的 中 断 ， 中 断 控 制 器 将 再 次 中 断 。 如 果 第 二 次 的 中 断 级 别 较 低 ， 它 将 被 保存 直到 
第 一 次 的 中 断 处 理 结束 。 为 了 使 这 种 方案 能 够 正常 工作 ， 中 断 控 制 器 必须 知道 当前 的 中 断 处 
理 程序 何 时 结束 ， 因 此 CPU 在 当前 的 中 断 完 全 处 理 完 之 后 应 该 向 中 断 控 制 器 发 送 一 条 命令 。 


5.7 详细 举例 : 汉 诺 塔 


现在 我 们 已 经 研究 了 三 种 计算 机 的 指令 系统 层 ， 我 们 将 通过 一 个 相同 的 例子 把 两 种 大 机 
器 的 所 有 细节 合并 成 一 个 整体 。 这 个 例子 就 是 汉 诺 塔 。 在 图 5-39 中 我 们 已 经 给 出 了 该 程序 的 
Java 语言 版 本 。 下 面 我 们 将 给 出 解决 汉 诺 塔 问题 的 汇编 语言 程序 。 

这 里 ， 我 们 做 了 一 点 小 的 变通 。 为 了 避免 Java IO 带 来 的 某 些 问题 我们 的 Core i7 和 
OMAP4430 ARM CPU 的 汇编 语言 程序 是 从 C 语言 版 本 转换 而 来 的 ， 而 不 是 从 Java 语言 版 本 
转换 而 来 。 唯 一 的 不 同 是 需要 把 Java 版 本 中 的 println 调用 置换 成 标准 的 C 语句 


printf(” Move a disk from %d to %d\n”, i, j) 


对 我 们 来 说 ，printf 的 格式 字符 串 的 语法 并 不 重要 (除了 Ad 表示 将 打印 一 个 十 进 制 整数 
之 外 ,字符 串 基本 上 是 逐 字 逐 名 地 打印 出 来 )。 我 们 唯一 关心 的 是 ， 过 程 调用 使 用 了 三 个 参 
数 : 一 个 格式 字符 串 和 两 个 整数 。 

对 于 Core i7 和 OMAP4430 来 说 ,使 用 CC 语言 是 因为 对 于 这 些 计算 机 来 说 Java 语言 
VO 库 不 可 用 ,而 C 语言 的 库 则 可 用 。 它 们 之 间 的 区 别 很 少 ， 只 影响 一 条 输出 语句 。 


5.7.1 Core i7 汇编 语言 实现 的 汉 诺 塔 


图 5-44 是 汉 诺 塔 程序 从 C 语言 到 Core i7 汇编 语言 的 一 种 可 能 的 转换 。 这 段 程 序 的 大 
部 分 是 简单 明了 的 。EBP 寄存 器 用 作 结 构 指针 。 最 前 面 的 两 个 字 用 于 链接 ， 因 此 第 一 个 实际 
参数 n (或 者 是 N，MASM 不 区 分 大 小 写 ) 位 于 EBP+8， 后 面 的 ;和 /分 别 位 于 EBP+12 和 
EBP+16。 局 部 变量 上 位 于 EBP+20。 
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.686 

.MODEL FLAT 

PUBLIC _towers 

EXTERN _printf:NEAR 

.CODE 

_towers: PUSH EBP 
MOV EBP ESP 
CMP [EBP+8], 1 
JNE L1 
MOV EAX, [EBP+16] 
PUSH EAX 
MOV EAX, [EBP+12] 
PUSH EAX 


PUSH OFFSET FLAT:format 


CALL _printf 
ADD ESP, 12 
JMP Done 

L1: MOV EAX, 6 
SUB EAX, [EBP+12] 
SUB EAX, [EBP+16] 
MOV [EBP+20], EAX 
PUSH EAX 
MOV EAX, [EBP+12] 
PUSH EAX 
MOV EAX, [EBP+8] 
DEC EAX 
PUSH EAX 
CALL _towers 
ADD ESP, 12 
MOV EAX, [EBP+16] 
PUSH EAX 
MOV EAX, [EBP+12] 
PUSH EAX 
PUSH 1 
CALL _towers 
ADD ESP, 12 
MOV EAX, [EBP+12] 
PUSH EAX 
MOV EAX, [EBP+20] 
PUSH EAX 
MOV EAX, [EBP+8] 
DEC EAX 
PUSH EAX 
CALL _towers 
ADD ESP, 12 

Done: LEAVE 
RET 0 





-DATA 


; AB ERE ( 各 8088 相 对 ) 


; “towers” 为 提供 给 外 部 程序 调用 的 过 程 名 
; 引入 printf 函 数 


;保存 EBP ( 段 指针 ) 

; 在 ESP 之 上 设置 新 的 段 指针 
; if(n==1) 

; 如 果 n 不 是 1 则 转移 
pPI <<"; 4.) 5) 
:注意 参数 1 j 和 格式 
;把 串 压 入 栈 

逆序。 这 是 C 调 用 约定 

; 篇 移 量 flat 表 示 格 式 的 地 址 
;调用 printf 

; 从 栈 中 移 走 和 参数 

;我 们 的 工作 完成 了 
:开始 K = 6-1-5 

;EAX = 6 一 二 
;EAX=6-i-j 

;k = EAX 

; 开始 towers(n 一 1, i, 6-i-j) 
; push i 

; EAX=n 

; EAX=n—1 

; push n—1 

; 调用 towers(n 一 1, i, 6-i—j) 
; 从 模 中 移 走 参数 

;开始 towers(1, i, j) 

; push j 

; EAX=i 

; push i 

;push 1 

;调用 towers(1, i, j) 

; 从 栈 中 移 走 参数 

; 开始 towers(n 一 1,6 一 i-j, i) 
; push I 

; push 20 

; push K 

; EAX=n 

+ EAX=n—1 

; push n-1 

; #4] A towers(n—1,6-i-j,i) 


; 返回 到 调用 程序 


DB "Move disk from %d to %d\n" ; 
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format ; 格式 串 
END 


图 5-44 在 Core i7 上 运行 的 汉 诺 塔 程序 
过 程 首先 在 原 有 的 结构 后 建立 新 结构 。 这 一 过 程 通过 把 ESP 拷贝 到 结构 指针 EBP 中 来 实 


现 。 然 后 比较 n 和 1， 


和 j 压 入 栈 ， 然 后 调 


用 输出 格式 串 。 


参数 是 按照 逆序 压 和 人 栈 的 ， 这 对 于 C 语言 A 言 来 说 是 必须 
顶 。 因 为 printf 的 参数 个 数 是 可 变 的 ， 如 果 参 数 按照 正常 的 顺序 压 人 栈 ，printf 将 不 知道 栈 中 


MBA SK. 


如 果 n>1 则 跳 转 到 else 部 分 执行 。then 部 分 的 代码 把 格式 串 的 地 址 、i 


的 。 执 行 格式 串 的 指针 必须 放 在 栈 


418 
2 


419 
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在 调用 之 后 ，ESP 被 加 上 12 以 移 去 栈 中 的 参数 。 当 然 ， 并 没有 把 它们 从 内 存 中 擦 掉 ， 但 
是 ESP 的 调整 使 程序 不 可 能 通过 正常 的 栈 操作 来 访问 它们 。 

从 Ll 开始 的 else 部 分 是 简单 明了 的 。 它 首先 计算 6-i-i 并 把 结果 存 人 k， 不管 i 和 jj 的 
值 是 多 少 ， 第 三 根 柱子 总 是 6-i-j。 把 它 保存 在 k 中 免得 再 次 计算 时 带 来 麻烦 。 

接 下 来 ， 过 程 三 次 调用 它 自身 ， 每 次 都 使 用 不 同 的 参数 。 每 次 调用 之 后 ， 栈 都 要 清空 。 
这 就 是 这 个 过 程 所 做 的 所 有 的 事情 。 

虽然 刚 见 到 递归 过 程 时 可 能 会 被 搞 糊涂 ， 但 当 我 们 在 这 个 层次 上 研究 它 之 后 ， 它 就 变 得 
简单 明了 了 。 递 归 过 程 中 发 生 的 所 有 的 事情 不 过 是 把 参数 入 栈 ， 然 后 再 调用 过 程 自身 而 已 。 


5.7.2 OMAP4430 ARM 汇编 语言 实现 的 汉 诺 塔 


现在 我 们 再 试 一 次 ， 不 过 这 次 是 OMAP4430 ARM。 代 码 列 在 图 5-45 中 。 由 于 
OMAP4430 ARM 代码 的 可 读 性 非常 差 ， 即 使 有 很 多 经 验 读 起 它 的 汇编 语言 来 也 相当 困难 ， 因 











#define Paramo ro 
#define Param1 ri 
#define Param2 r2 
#define FormatPtr ro 
#define k r7 
#define n_minus_1 r5 
„text 
towers: push {r3, r4, r5, r6, r7, Ir} @ 保 存 返 回 地 址 和 相关 寄存 器 
mov r4, Param1 
mov r6, Param2 
cmp Paramo, #1 @(n==1)? 
bne else @ 不 满足 条 件 ， 跳 转 到 else 代 码 块 中 
movw FormatPtr, #:lower16:format ” @ 读 取 格 式 字符 串 的 指针 
movt FormatPtr, #:upper16:format 
bl printf @ 打 印 操作 
pop {r3, r4, r5, r6, r7, pc} 
else: rsb k, r1, #6 @ k=6-i-j 
subs k, k, r2 
add n_minus_1, rO, #-1 @ 为 递归 调用 计算 (n-1) 的 值 。 
mov ro, n_minus_1 
mov r2, k 
bl towers @ 调 用 towers(n-1,7, k) 
mov rO, #1 
mov r1, r4 
mov r2, r6 
bl towers @ 调 用 towers(1,k,j) 
movro, n_minus_1 
mov ri, k 
mov r2, r6 
bl towers @ 调 用 towers(n 一 1,k,j) 
pop {r3, r4, r5, r6, r7, pc} @ 恢 复 相关 寄存 器 ， 返 回调 用 地 址 。 
.global main 
main: push {Ir} @ 保 存 调 用 的 返回 地 址 。mov Param0,#3 
mov Param0, #3 
mov Param1, #1 
mov Param2, Param0 
bl towers @ #4 A towers(3, 1,3) 
pop {pc} @ 和 返回 地 址 出 栈 ， 返 回 。 
format: .ascii "Move a disk from %d to %d\n\0" 


图 5-45 ”为 OMAP4430 ARM CPU 编写 的 汉 诺 塔 程序 
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此 我 们 在 开始 的 地 方 定义 了 一 些 符号 以 使 它 变 得 清晰 。 为 了 使 它 能 够 工作 ， 在 汇编 之 前 ， 程 
序 首先 要 由 一 个 称 为 cpp 的 C 预 编译 器 进行 预 编 译 。 另 外 ,我 们 还 使 用 了 小 写字 母 ， 因 为 
OMAP4430 ARM 的 汇编 器 要 求 这 样 ( 以 防 有 些 读者 把 程序 敲 人 计算 机 后 发 现 不 能 运行 )。 

从 算法 上 来 说 ，OMAP4430 ARM 版 本 和 Core i7 版 本 完全 一 样 。 都 是 从 测试 n 开始 ， 如 
果 n>1 则 跳 转 到 else 字句 执行 .ARM 版 本 的 主要 的 复杂 性 是 由 指令 系统 层 的 某 些 特性 造成 的 。 

首先 ，OMAP4430 ARM 必须 把 格式 串 的 地 址 传递 给 printf， 但 是 它 不 能 把 地 址 传递 给 保 
存 输出 参数 的 寄存 器 ， 因 为 没有 办 法 用 一 条 指令 把 32 位 的 常量 存 人 寄存 器 。 过 程 中 使 用 了 两 
条 指令 MOVW 和 MOVT 来 做 这 项 工作 。 

下 一 个 需要 注意 的 是 栈 会 在 函数 开始 和 结束 的 时 候 会 自动 调用 PUSH 和 POP 指令 来 调 
整 。 这 两 个 指令 同时 也 通过 在 函数 人 口 时 保存 LR 寄存 器 并 在 函数 结束 时 恢复 PC 寄存 器 来 处 
理 保 存 、 恢 复 返 回 地 址 的 操作 。 


5.8 1IA-64 体系 结构 和 Itanium 2 


在 2000 年 左右 ， 很 多 Intel 内 部 的 工程 师 感 觉 到 Intel 正在 快速 地 榨 干 IA-32 指令 系统 层 
的 最 后 一 滴 汁 液 。 到 目前 为 止 ， 新 模型 仍然 可 以 从 工业 技术 进步 中 获 利 ， 这 意味 着 晶体 管 更 
小 ( 因而 速度 也 更 快 )。 但 是 ， 找 到 能 够 加 快 具体 实现 速度 的 方法 已 经 越 来 越 难 了 ， 因 为 随 着 
时 间 的 推移 ，IA-32 的 局 限 性 已 经 越 来 越 明 显 了 。 

有 些 工程 师 觉 得 解决 问题 的 唯一 实际 的 方案 就 是 抛弃 IA-32 这 一 主线 ， 转 向 全 新 的 指令 
系统 层 。 实 际 上 ，Intel 正 试图 这 样 做 ， 并且 具有 两 线 计 划 。EMT-64 是 传统 Pentium 指令 系统 
层 的 宽 字 长 版 本 ， 具 有 64 位 的 寄存 器 和 64 位 的 地 址 空间 。 这 个 处 理 器 解决 了 地 址 空间 问题 
但 是 还 是 具有 Pentium 的 所 有 实现 复杂 性 。 它 只 能 被 看 作 是 一 个 宽 字 长 版 本 的 Pentium。 

另 一 个 由 Intel 和 HP 联合 开发 的 新 的 体系 结构 称 为 IA-64。 这 是 一 台 彻头彻尾 的 全 64 位 
的 计算 机 。 而 不 是 现存 的 32 位 计算 机 的 改良 版 本 。 而 且 它 在 很 多 方面 和 IA-32 结构 有 着 根 
本 的 区 别 。 最 初 市 场 是 面向 高 端 服务 器 ， 然 而 Intel 希望 最 终 它 可 以 走 进 桌面 计算 机 中 ， 但 是 
这 却 没 有 实现 。IA-64 是 如 此 糟糕 ， 以 致 消费 者 拒绝 抛弃 IA-32。 无 论 如 何 ， 这 种 体系 结构 和 
我 们 已 经 研究 过 的 还 是 具有 本 质 上 的 不 同 ， 正 是 这 样 的 原因 才 更 值得 我 们 来 研究 它 。 最 早 的 
IA-64 体系 结构 的 实现 是 Itanium 系列 。 在 本 节 的 剩余 部 分 我 们 将 研究 IA-64 体系 结构 及 其 实 
现 Itanium 2 CPU。 


5.8.1 1A-32 的 问题 


在 探讨 IA-64 体系 结构 和 Itanium 2 的 细节 之 前 ， 有 必要 回顾 一 下 IA-32 的 问题 以 及 Intel 
在 新 体系 结构 中 要 尽力 去 解决 哪些 问题 。 产 生 各 种 问题 的 主要 原因 是 IA-32 是 一 种 过 时 的 、 
带 有 各 种 和 当前 技术 不 相称 的 特性 的 指令 系统 层 。 它 是 一 种 CISC 指令 系统 层 ， 使 用 变 长 的 
指令 ， 有 无 数 种 不 同 的 指令 格式 ， 这 使 它 难于 在 执行 中 进行 快速 译 码 。 当 前 的 技术 使 用 RISC 
指令 系统 层 工 作 起 来 最 好 ， 这 种 指令 系统 层 只 有 一 种 指令 长 度 而 且 操 作 码 是 定 长 的 ， 这 使 它 
易于 译 码 。IA-32 指令 在 执行 时 可 以 被 划分 成 类 似 RISC 的 微 操作 ,但 这 样 做 需要 硬件 支持 
(也 就 是 芯片 面积 )、 需 要 花费 时 间 而 且 增 加 了 设计 的 复杂 性 。 这 是 第 一 振 。 

IA-32 还 是 一 个 两 地 址 的 面向 内 存 的 指令 系统 层 。 大 多 数 指令 要 引用 内 存 ， 而 大 多 数 的 
程序 员 和 编译 器 根本 就 不 考虑 是 否 引用 内 存 。 当 前 的 技术 提倡 加 载 /存储 形式 的 指令 系统 层 ， 


= 二 


只 在 把 操作 数 放 到 寄存 器 中 时 引用 内 存 ， 然 后 使 用 三 地 址 格式 的 内 存 寄存 器 指令 执行 所 有 的 
计算 。 由 于 CPU 的 时 钟 速度 比 内 存 的 时 钟 速度 提高 得 更 快 ， 因 此 随 着 时 间 的 推移 这 个 问题 会 
变 得 更 加 严重 。 这 是 第 二 振 。 

IA-32 还 使 用 一 个 小 而 且 不 规则 的 寄存 器 组 。 这 不 仅 束 缚 了 编译 器 ， 而 且 由 于 通用 寄存 
器 的 数量 太 少 ( 即使 算 上 ESI 和 EDI， 也 只 有 六 个 通用 寄存 器 ) 使 得 中 间 结 果 必 须 放 入 内 存 ， 
这 就 带 来 了 额外 的 在 逻辑 上 并 不 需要 的 内 存 访问 。 这 是 第 三 振 。IA-32 三 振 出 局 。 

现在 第 二 局 开始 了 。 由 于 寄存 器 数量 少 带 来 了 许多 相关 性 ， 特 别 是 不 必要 的 WAR 相关 
性 ， 因 为 结果 必须 被 放 到 某 个 地 方 又 没有 额外 的 寄存 器 可 用 。 为 了 避免 出 现 缺少 寄存 器 的 情 
况 ， 实 现 必须 做 内 部 的 重 命名 。 但 是 即使 能 够 这 么 做 ， 这 也 是 一 种 可 怕 的 方法 一 一 在 重新 排 
序 的 缓冲 区 中 实现 了 一 些 秘密 操作 的 寄存 器 。 为 了 防止 cache 出 现 过 多 的 不 命中 ， 指 令 必须 
乱 序 执行 。 但 是 ，IA-32 的 语义 定义 了 精确 的 中 断 ， 因 此 乱 序 指令 必须 按 正常 的 次 序 退 出 流水 
线 。 所 有 这 些 事 都 需要 大 量 复杂 的 硬件 。 这 是 第 四 振 。 

为 了 快速 地 做 这 些 工 作 需 要 深度 的 流水 线 。 深 度 流 水 线 意味 着 指令 执行 结束 之 前 需要 很 
多 个 周期 。 因 此 ， 准 确 的 分 支 预 取 对 于 保证 正确 的 指令 进入 流水 线 是 很 关键 的 。 因 为 一 次 预 
取 错 误 就 需要 重新 刷新 流水 线 ， 代 价 很 高 ， 即 使 相当 小 的 预 取 错 误 率 也 会 导致 实际 上 的 性 能 
下 降 。 这 是 第 五 振 。 

为 了 减少 预 取 错误 带 来 的 问题 ， 处 理 器 不 得 不 进行 推断 执行 ， 这 又 会 带 来 相应 的 问题 ， 
特别 是 在 错误 的 执行 路 径 上 进行 内 存 访 问 会 产生 异常 。 这 是 第 六 振 。 

我 们 并 不 想 在 这 里 举行 一 场 完整 的 棒球 比赛 ， 但 是 现在 我 们 已 经 很 清楚 地 知道 IA-32 确 
实 存在 问题 。 我 们 甚至 还 没有 提 到 IA-32 的 32 位 地 址 的 限制 使 每 个 程序 只 能 有 4GB 的 内 存 
空间 ， 这 在 高 端 服务 器 中 已 经 逐渐 成 为 问题 了 。EMT-64 虽然 解决 了 这 个 问题 ,但 是 其 他 问题 
并 没有 解决 。 

总 而 言 之 ，IA-32 的 状况 可 以 和 哥 白 尼 之 前 的 天 文学 的 状况 相 比 。 那 时 在 天 文学 界 占 统 
治 地 位 的 理论 认为 地 球 在 宇宙 中 的 位 置 是 固定 不 动 的 ， 行星 绕 着 地 球 的 本 轮 做 圆周 运动 。 但 
是 ， 随 着 观察 条 件 越 来 越 好 ， 人 们 清晰 地 观察 到 越 来 越 多 的 违背 这 种 模型 的 现象 ， 于 是 在 模 
型 中 又 增加 了 许多 本 轮 ， 直 到 整个 模型 由 于 其 内 部 的 复杂 性 而 崩溃 。 

Intel 现在 正面 临 相同 的 困境 。Core i7 中 的 大 部 分 晶体 管 被 用 于 译 码 CISC 指令 、 分 析 哪 
些 指 令 可 以 并 行 执行 、 解 决 冲突 、 进 行 预测 、 修 复 不 正确 的 预测 和 其 他 的 记录 带 来 的 问题 ， 
只 有 相当 小 的 一 部 分 晶体 管 真 正在 做 用 户 要 求 的 工作 。Intel 得 出 的 无 情 的 结论 正 是 唯一 正确 
的 结论 : 抛弃 整个 IA-32， 从 IA-64 重新 做 起 。 虽 然 EMT-64 提供 了 一 些 喘息 的 空间 ， 但 是 也 
解决 不 了 根本 性 的 问题 。 


5.8.2 ”IA-64 模型 : 显 式 并 行 指 令 计 算 


IA-64 体系 结构 的 核心 思想 是 将 工作 从 运行 时 转移 到 编译 时 。 在 Core i7 中 ， 执 行 时 CPU 
要 对 指令 重新 排序 、 重 命名 寄存 器 、 调 度 功能 单元 ， 要 做 大 量 的 工作 来 决定 如 何 使 得 所 有 的 
硬件 资源 都 得 到 充分 利用 。 在 IA-64 模型 中 ， 编 译 器 预先 解决 所 有 这 些 问题 ， 产 生 的 程序 不 
用 再 改变 就 能 够 直接 运行 ， 而 不 再 需要 硬件 在 运行 时 来 处 理 所 有 的 事情 。 例 如 ， 在 老 的 体系 
结构 中 编译 器 编译 的 时 候 被 告知 机 器 有 8 个 寄存 器 ， 但 实际 上 机 器 却 有 128 个 寄存 器 ， 这 样 
就 不 得 不 在 运行 时 进行 判断 从 而 避免 相关 性 问题 。 在 IA-64 模型 中 ， 编 译 器 被 准确 地 告知 机 
器 真正 有 多 少 个 寄存 器 ， 这 样 它 就 能 够 产生 出 开始 就 没有 寄存 器 冲突 的 程序 。 类 似 地 ， 在 这 





个 模型 中 ， 编 译 器 还 要 知道 哪 一 个 功能 单元 是 被 占用 的 ， 从 而 在 这 些 功 能 单元 不 可 用 的 时 候 
不 发 射 使 用 它们 的 指令 。 这 种 使 得 硬件 中 潜在 的 并 行 性 对 编译 器 可 见 的 模型 称 为 显 式 并 行 指 
令 计 算 ( Explicitly Parallel Instruction Computing，EPIC )。 在 某 种 程度 上 ，EPIC 可 以 被 认为 
是 RISC 的 继任 者 。 

IA-64 模型 还 有 一 些 能 够 加 速 性 能 的 特征 。 这 些 包 括 减 少 内 存 访问 、 指 令 调 度 、 减 少 条 
件 转移 和 推测 等 。 下 面 我 们 就 按照 顺序 来 分 别 介绍 它们 并 看 看 它们 是 如 何在 Itanium 2 中 实 
现 的 。 


5.8.3 ”减少 内 存 访问 


Itanium 2 具有 简单 的 内 存 模 式 。 内 存 最 多 由 2” 字 节 的 线性 内 存 构成 。 指 令 可 以 以 1、2、 
4、8、16 和 10 字 节 为 单位 来 访问 内 存 ，10 字 节 的 方式 是 为 了 支持 80 位 的 IEEE 754 FARO 
内 存 访问 不 需要 边界 对 齐 ， 但 是 不 对 齐 就 可 能 带 来 性 能 上 的 损失 。 内 存 可 以 是 大 端 派 也 可 以 
是 小 端 派 ， 这 是 由 操作 系统 可 以 访问 的 寄存 器 中 的 一 位 来 决定 的 。 

在 所 有 的 现代 计算 中 内 存 访问 都 是 一 个 巨大 的 瓶 诺 ， 因 为 CPU 的 速度 比 内 存 的 速度 要 快 
得 多 。 减 少 内 存 访问 的 一 种 方法 就 是 具有 一 个 较 大 的 片 内 一 级 cache 和 一 个 与 芯片 较 近 的 更 
大 的 二 级 cache。 所 有 的 现代 设计 都 具有 这 两 种 cache。 但 是 在 cache 之 外 还 是 有 一 些 其 他 的 
方法 来 减少 内 存 访问 ，IA-64 就 采用 了 一 些 这 样 的 方法 。 

加 速 内 存 访问 最 好 的 方法 就 是 首先 要 避免 使 用 内 存 。IA-64 模型 的 Itanium 2 实现 具有 
128 个 64 位 通用 寄存 器 。 前 32 个 寄存 器 是 静态 的 ， 剩 下 的 96 个 用 作 寄 存 器 栈 ， 这 和 诸如 
UltraSPARC 的 寄存 器 窗口 模式 很 类 似 。 然 而 ， 和 UltraSPARC 不 同 ， 程 序 可 用 的 寄存 器 数 是 
可 变 的 ， 可 以 根据 过 程 的 不 同 而 变化 。 这 样 每 一 个 过 程 都 能 够 访问 32 个 静态 寄存 器 和 一 定 
(可 变 ) 数量 的 动态 分 配 的 寄存 器 。 

当 一 个 过 程 被 调用 的 时 候 ， 寄 存 器 栈 指针 将 前 移 从 而 使 得 输入 参数 在 寄存 器 中 可 见 ， 但 
是 寄存 器 不 能 分 配给 局 部 变量 。 过 程 自身 决定 它 需 要 多 少 个 寄存 器 ， 然 后 前 移 寄 存 器 栈 指针 
来 进行 分 配 。 这 些 寄存 器 不 需要 在 人 口 进行 保存 ， 也 不 需要 在 退出 时 候 进行 恢复 。 当 然 如 果 
过 程 需要 修改 静态 寄存 器 ， 还 是 必须 要 显 式 地 保存 ， 然 后 再 进行 恢复 。 通 过 使 可 用 的 寄存 器 
数量 可 变 并 根据 过 程 的 需要 进行 裁 前 ， 宝 贵 的 寄存 器 资源 将 不 再 被 浪费 ， 在 寄存 器 使 用 完 之 
前 过 程 调用 层次 可 以 更 深 。 

Itanium 2 还 有 符合 IEEE 754 格式 的 128 位 浮 点 寄存 器 。 这 些 寄存 器 不 能 作为 寄存 器 栈 
来 操作 。 大 量 的 寄存 器 意味 着 许多 浮 点 计算 可 以 将 它们 的 中 间 结 果 放 到 寄存 器 中 ， 从 而 避免 
将 临时 结果 放 到 内 存 中 。 

此 外 ,还 有 64 个 1 位 的 判定 寄存 器 、8 个 分 支 寄存 器 以 及 128 个 具有 特殊 用 途 的 专用 寄 
存 器 ， 例 如 用 于 在 应 用 程序 和 操作 系统 之 间 传 递 参数 的 寄存 器 等 。Itanium 2 寄存 器 的 概况 如 
图 5-46 所 示 。 


5.8.4 指令 调度 


Core i7 的 一 个 主要 问题 就 是 很 难 在 各 种 功能 单元 之 间 调 度 各 种 指令 ， 从 而 避免 相关 性 发 
生 。 在 运行 时 处 理 这 样 的 问题 需要 非常 复杂 的 机 制 ， 芯 片面 积 的 很 大 一 部 分 都 用 来 管理 它们 。 
IA-64 和 Itanium 2 通过 编译 器 的 工作 来 避免 所 有 这 些 问 题 。 主 要 的 思想 是 程序 是 由 一 系列 指 
令 组 (instruction group ) 构成 的 ， 在 一 定 的 边界 内 ,一 组 之 内 的 所 有 指令 互相 之 间 并 不 冲突 ， 
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图 5-46 Itanium 2 寄存 器 


需要 的 功能 单元 和 资源 也 不 多 于 计算 机 本 身 拥有 的 ， 也 不 存在 RAW 和 WAW 相关 ， 顶 多 受到 
一 些 WAR 相关 的 限制 。 第 一 组 指令 完全 执行 完 第 二 组 指令 才能 开始 执行 ， 连 续 的 指令 组 看 
起 来 像 是 严格 顺序 执行 的 。 然 而 ，CPU 在 它 认为 能 够 安全 执行 的 时 候 ， 可 以 开始 执行 第 二 组 
指令 (或 者 部 分 )。 

采用 这 些 规 则 的 后 果 就 是 CPU 能 够 以 它 选择 的 任何 顺序 来 自由 地 调度 组 内 的 指令 ， 不 用 
担心 冲突 ， 尽 可 能 地 来 并 行 执行 。 如 果 指 令 组 违反 了 这 些 规 则 ， 那 么 程序 的 行为 就 是 不 可 预 
料 的 了 。 这 就 需要 编译 器 重新 对 源 程序 生成 的 汇编 码 进行 排序 来 解决 所 有 这 些 问 题 。 当 一 个 
程序 在 调试 的 时 候 进行 快速 编译 ,编译 器 可 以 将 每 条 指令 单独 放 到 一 个 组 中 ， 这 样 做 最 简单 
但 是 性 能 也 很 差 。 当 最 后 生成 产品 级 代码 的 时 候 ， 编 译 器 需要 很 长 的 时 间 来 进行 优化 。 

指令 可 以 按照 图 5-47 顶部 所 示 的 方式 组 织 成 一 个 128 位 的 束 (bundle )。 每 一 束 包含 三 
个 41 位 的 指令 和 一 个 5 位 的 模板 。 指 令 组 不 需要 内 部 的 束 编号 ; 它 可 以 在 束 的 中 间 开 始 或 者 
结束 。 


41 41 41 5 

“wee [wer Ter TT 
ie att », oe _ Bet 

位 数 22 a 10 7 7 weer 

( [ora wns [woes wa | 
操作 组 人 


图 5-47 包含 三 条 指令 的 IA-64 指令 束 


间 令 格式 有 上 百 种 之 多 ， 图 5-47 中 给 出 了 其 中 典型 的 一 种 格式 。 在 这 个 例子 中 是 一 条 
ALU 操作 指令 ,例如 ADD 指令 将 两 个 寄存 器 的 内 容 相 加 结果 放 到 第 三 个 寄存 器 中 。 第 一 
个 字段 OPERATION GROUP 是 所 属 组 ， 用 来 说 明 指 令 所 属 的 大 类 是 什么 ， 例 如 可 以 是 整数 
ALU 操作 等 。 下 一 个 字段 OPERATION TYPE 给 出 了 需要 的 特殊 操作 ， 例 如， 是 ADD 还 是 
SUB 等 。 接 下 来 是 三 个 寄存 器 字段 。 最 后 PREDICATE REGISTER， 说 明 从 略 。 

指令 束 模 板 实 质 上 给 出 的 是 指令 束 需 要 哪些 功能 单元 以 及 指令 组 边界 出 现 的 位 置 。 主 要 
的 功能 单元 是 整数 ALU、 非 ALU 整数 指令 、 内 存 操作 、 浮 点 操作 、 分 支 等 。 当 然 ，6 个 单 
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元 和 3 条 指令 完全 正 交 的 话 需要 216 种 组 合 ， 再 加 上 216 种 组 合 来 指示 追随 指令 0 的 指令 组 ， 
216 种 组 合 来 指示 追随 指令 1 的 指令 组 ，216 种 组 合 来 指示 追随 指令 2 的 指令 组 。 可 用 的 模板 
只 有 5 位， 可见 只 有 有 限 的 几 种 组 合 是 允许 的 。 另 外 一 方面 ， 一 束 里 面 如 果 是 3 条 浮 点 指令 
的 话 将 不 会 起 作用 ， 即 使 有 办 法 定义 也 不 会 起 作用 ， 因 为 CPU 不 能 同时 初始 化 3 条 浮 点 数 指 
令 。 人 允许 的 组 合 只 能 是 真正 切实 可 行 的 。 


5.8.5 减少 条 件 转移 : 判定 


IA-64 的 另 一 个 重要 的 特性 是 它 处 理 条 件 转移 的 方式 。 如 果 有 办 法 去 掉 大 部 分 的 条 件 转 
移 ，CPU 将 会 更 简单 而 且 更 快 。 乍 一 听 这 种 想法 似乎 是 不 可 能 的 ， 因 为 程序 中 充满 了 让 语句 。 
但 是 ，IA-64 使 用 了 一 种 称 为 判定 ( predication ) 的 技术 ， 使 用 这 种 技术 可 以 极 大 地 减少 条 件 
转移 的 数量 ( August et 等 人 ，1998; Hwu，1998 )。 下 面 我 们 简要 地 说 明 判 定 的 原理 。 

在 传统 体系 结构 中 ， 所 有 的 指令 在 某 种 程度 上 说 都 是 无 条 件 的 ， 当 CPU 命中 一 条 指令 
时 ， 它 只 是 执行 而 已 。 在 CPU 内 部 并 没有 采用 打赌 的 形式 :“ 执 行 它 还 是 不 执行 它 呢 ? ” 相 
反 ， 在 预测 体系 结构 中 ， 包 含 条 件 ( 断言 ) 的 指令 会 说 明 它 们 何 时 应 该 被 执行 何 时 又 不 该 被 
执行 。 从 无 条 件 指令 范式 到 判定 指令 范式 的 转换 使 我 们 可 以 去 掉 (许多 ) 条 件 转移 指令 。 我 
们 可 以 不 用 在 一 串 无 条 件 指令 和 另 一 串 无 条 件 指令 之 间 做 出 选择 ， 所 有 的 指令 都 被 合并 成 单 
一 系列 的 判定 指令 ， 对 于 不 同 的 指令 使 用 不 同 的 判定 。 

为 了 搞 清 楚 判 定 是 如 何 工 作 的 ， 我 们 从 图 5-48 的 简单 例子 开始 ， 这 个 例子 显示 了 条 件 执 
{T (conditional execution) 的 工作 过 程 ， 这 是 判定 技术 的 前 身 。 在 图 5-48a 中 我 们 看 到 了 一 条 
让 语句 。 在 图 5-48b 中 这 条 让 语句 被 翻译 成 3 条 指令 : 一 条 比较 指令 、 一 条 条 件 转移 指令 和 
一 条 数据 移动 指令 。 


if (R1.== 0) CMP R1,0 CMOVZ R2,R3,R1 
R2 = R3; BNE L1 
MOV R2,R3 
Lis 


a) 一 条 if 语 句 b) 语句 a) 的 一 般 性 的 汇编 语言 c) 条 件 指令 
图 5-48 


在 图 5-48c 中 我 们 使 用 一 条 新 的 条 件数 据 移 动 指令 CMOVZ 来 去 掉 条 件 转移 指令 。 
CMOVZ 指令 的 工作 是 检查 第 三 个 寄存 器 ，R1 ETEO, WEE, WHER 拷贝 到 R2。 如 果 
不 是 0， 则 什么 也 不 做 。 

一 旦 我 们 有 了 当 某 个 寄存 器 为 0 时 拷贝 数据 的 指令 ,那么 再 前 进 一 小 步 就 得 到 了 当 某 个 
寄存 器 不 为 0 时 拷贝 数据 的 指令 CMOVN。 当 我 们 拥有 这 些 指令 后 ， 就 可 以 用 我 们 自己 的 方 
式 来 执行 完整 的 条 件 了 。 假 定 一 条 让 语句 在 then 部 分 有 几 条 赋值 语句 ， 在 else 部 分 也 有 几 
条 赋值 语句 。 那 么 整个 语句 可 以 翻译 成 这 样 的 代码 : 当 条 件 为 假 时 把 某 个 寄存 器 赋值 为 0， 
当 条 件 为 真 时 把 它 赋值 为 非 0。 寄 存 器 赋值 之 后 ，then 部 分 的 赋值 语句 可 以 编译 成 一 系列 的 
CMOVN 指令 ，else 部 分 的 赋值 语句 可 以 编译 成 一 系列 的 CMOVZ 指令 。 

所 有 这 些 指令 、 寄 存 器 赋值 、CMOVN 和 CMOVZ 都 是 来 自 没 有 条 件 转移 的 单一 基本 程 
序 块 。 这 些 指令 可 以 被 重新 排序 ， 或 者 由 编译 器 来 做 (包括 提升 测试 之 前 的 赋值 语句 )， 或 者 
在 执行 时 做 。 唯 一 的 问题 是 当 得 知 条 件 时 条 件 指 令 不 得 不 重新 执行 ( 靠近 流水 线 的 末端 )。 一 - 
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个 有 then 部 分 和 else 部 分 的 简单 例子 如 图 5-49 所 示 。 









if (R1 == 0) { CMP R1,0 CMOVZ R2,R3,R1 
R2 = R3; BNE L1 CMOVZ R4,R5,R1 
R4 = R5; MOV R2,R3 CMOVN R6,R7,R1 
}else { MOV R4.R5 CMOVN R8,R9,R1 
R6 = R7; BR L2 
R8 = R9; L1: MOV R6,R7 





} 






MOV R8,R9 








a) 证 语句 b) 针对 a) 所 示 语 名 的 一 般 性 的 汇编 语言 O 条 件 执行 
5-49 


尽管 在 图 5-49 中 我 们 使 用 了 非常 简单 的 条 件 指令 ( 实际 上 ， 这些 指 令 取 自 IA-32 指令 
Æ), 在 IA-64 中 所 有 的 指令 都 是 判定 的 。 这 意味 着 执行 每 条 指令 时 都 可 以 带 条 件 。 前 面 提 到 
的 额外 的 6 位 字段 正 是 用 于 选择 64 个 1 位 的 判定 寄存 器 。 这 样 让 语句 可 以 编译 成 这 样 的 代 
码 : 当 条 件 为 真 时 判定 寄存 器 赋值 为 1， 否则 赋值 为 0。 同时 ， 也 是 自动 的 ， 它 将 另 一 个 判定 
寄存 器 赋值 为 相反 的 值 。 使 用 判定 后 ，then 和 else 形式 的 语句 将 被 合并 成 单一 的 指令 流 ， 前 
者 使 用 判定 寄存 器 ， 后 者 使 用 它 的 相反 值 。 当 控制 传递 到 该 指令 ， 只 有 一 组 指令 将 会 被 执行 。 

虽然 简单 ， 图 5-50 的 例子 还 是 能 够 说 明 如 何 使 用 判定 删除 分 支 的 基本 思想 。CMPEQ 指 
令 比较 两 个 寄存 器 ， 如 果 相 等 把 判定 寄存 器 P4 赋值 为 1， 如果 不 等 则 赋值 为 0。 它 也 会 把 与 
它 相 伴 的 寄存 器 ， 比 如 P5， 设 置 成 相反 的 值 。 现 在 让 和 then 部 分 的 指令 可 以 按 顺 序 一 条 接 
一 条 的 放置 ， 每 条 指令 的 条 件 放 在 判定 寄存 器 中 ( 在 图 中 的 括号 中 )。 在 这 里 可 以 放任 意 的 代 
码 ， 只 要 每 条 指令 都 被 正确 地 判定 。 


if (R1 == R2) CMP R1,R2 CMPEQ R1,R2,P4 
R3 = R4 + R5; BNE L1 <P4> ADD R3,R4,R5 

else MOV R3,R4 <P5> SUB R6,R4,R5 
R6 = R4 - R5 ADD R3,R5 


BR L2 
: MOV R6,R4 
SUB R6,R5 





a) 一 条 if 语 旬 ” b) 针对 a) 所 示 语 句 的 一 般 性 的 汇编 语言 c) 判定 执行 
图 5-50 


在 IA-64 中 ， 这 种 思想 被 发 挥 到 了 极致 ， 不 仅 比 较 指 令 设 置 判 定 寄存 器 ， 算 术 指 令 和 其 
他 依赖 于 某 个 判定 寄存 器 的 指令 也 设置 判定 寄存 器 。 判 定 指 令 可 以 以 正常 的 顺序 进入 流水 线 ， 
不 需要 延 时 也 没有 任何 问题 。 这 就 是 为 什么 它们 是 如 此 有 用 的 原因 。 

在 IA-64 中 判定 的 实际 执行 过 程 是 每 条 指令 都 被 执行 。 在 流水 线 的 末端 ， 当 某 条 指令 到 
达 退 出 流水 线 的 时 刻 时 ， 会 检查 判定 是 否 为 真 。 如 果 为 真 ， 指 令 将 正常 地 退出 ， 它 的 结果 被 
写 人 目的 寄存 器 。 如 果断 言 为 假 ， 就 不 执行 任何 写 人 操作 ， 所 以 这 条 指令 没有 任何 效果 。 有 
关 判 定 的 进一步 讨论 参见 Dulong ( 1998 )。 


5.8.6 推测 加 载 
IA-64 采用 的 男 一 种 加 速 执行 的 措施 是 推测 加 载 。 如 果 推 测 加 载 与 实际 的 流程 不 符 ， 并 
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不 会 产生 异常 ， 而 只 是 停止 执行 该 指令 ， 并 把 和 加 载 的 寄存 器 相关 的 一 位 设置 为 1 来 表示 寄 
存 器 的 内 容 无 效 。 这 就 是 第 4 章 中 介绍 的 失效 位 。 如 果 后 面 用 到 了 该 失效 寄存 器 就 会 产生 异 
常 ， 否 则 什么 也 不 会 发 生 。 

编译 器 可 以 使 用 推测 的 方法 来 提前 执行 LOAD 操作 。 由 于 开始 得 早 ， 在 需要 结果 之 前 结 
果 就 已 经 到 位 了 。 编 译 器 在 需要 使 用 已 经 加 载 的 寄存 器 的 位 置 上 插入 CHECK 指令 。 如 果 需 
要 的 值 已 经 存在 ，CHECK 指令 就 像 NOP 指令 一 样 什么 也 不 做 ， 程 序 继续 执行 。 如 果 需 要 的 
值 还 不 存在 ， 下 一 条 指令 将 被 延迟 。 如 果 异 常 发 生 并 且 失 效 位 被 设置 ， 待 定 的 异常 就 会 在 这 
个 时 间 点 发 生 。 

概括 地 说 ， 实 现 IA-64 体系 结构 的 计算 机 能 提高 速度 的 原因 主要 有 这 样 几 个 方面 。 首 先 ， 
IA-64 的 核心 是 一 个 先进 的 基于 流水 线 、 加 载 /存储 结构 并 使 用 三 地 址 的 RISC 引擎 。 这 与 复 
杂 的 IA-32 体系 结构 相 比 已 经 是 一 个 巨大 的 进步 了 。 

另外 ，IA-64 的 显 式 并 行 计算 模型 可 以 利用 编译 器 来 判断 指令 是 否 能 够 无 冲突 地 同时 执 
行 ， 不 会 冲突 的 指令 将 被 合成 为 指令 束 。 使 用 这 种 方式 ，CPU 可 以 自由 地 调度 指令 束 而 不 需 
要 进行 判断 。 将 负担 从 运行 时 转移 到 编译 时 总 是 一 个 进步 。 

而 且 ， 判 定 技术 可 以 把 这 语句 的 两 个 分 支 合并 成 一 个 单一 的 指令 流 ， 这 样 就 避免 了 条 件 
跳 转 而 直接 判定 指令 将 会 沿 哪 条 路 径 执行 。 最 后 一 点 ， 推 测 加 载 技术 可 以 预先 取出 操作 数 ， 
即使 该 操作 数 完全 用 不 着 也 不 会 对 性 能 产生 任何 负面 影响 。 

综 上 所 述 ，Itanium 作为 一 个 令 人 印象 深刻 的 设计 ， 似 乎 能 更 好 地 服务 于 架构 师 和 用 户 。 
所 以 ,你 的 计算 机 上 是 否 运 行 着 一 个 Itanium 处 理 器 呢 ? 我 们 的 计算 机 上 呢 ? 或 者 你 知道 其 他 
大 的 计算 机 上 有 运行 吗 ? 回答 是 : 没有 ,没有 和 (很 有 可 能 ) WA. Itanium 面世 已 经 超过 10 年 
了 ， 礼 貌 点 说 ， 采 纳 它 的 人 寥 密 无几。 但 Intel 依然 生产 基于 Itanium 的 系统 ， 尽 管 它们 只 供应 
高 端的 服务 器 。 

现在 ， 让 我 们 回 到 推动 IA-64 面世 的 初衷。Itanium 是 为 了 解决 IA-32 体系 结构 的 很 多 缺 
陷 而 设计 的 。 考 虑 到 Itanium 并 未 被 广泛 地 采纳 ， 那 么 Intel 是 如 何 处 理 这 些 缺 陷 的 呢 ? 如 我 
们 将 在 第 8 章 看 到 的 ， 让 IA-32 系列 保持 前 进 的 动力 不 是 重组 ISA， 而 是 通过 片上 多 处 理 器 
技术 实现 并 行 计算 。 关 于 Itanium 2 及 其 微 体 系 结构 的 更 多 信息 可 以 参考 MCNairy 和 Soltis 
(2003 ) 以 及 Rusu 等 (2004 ) 的 相关 文献 。 


5.9 小 结 


大 多 数 人 把 指令 系统 层 认 为 是 “机 器 语言 "。 而 在 CISC 计算 机 中 ， 它 主要 是 在 更 低 的 微 
指令 一 层 上 建立 的 。 该 层次 的 计算 机 是 由 面向 字 节 或 者 面向 字 的 数 十 兆 字 节 大 小 的 内 存 和 像 
MOVE, ADD 和 BEQ 这 样 的 指令 组 成 。 

大 多 数 现 代 计 算 机 的 内 存 是 由 一 系列 的 字 节 组 成 的 ， 每 4 个 或 者 8 个 字 节 组 成 一 个 字 。 
通常 有 8 ~ 32 个 可 用 的 寄存 器 ， 每 个 寄存 器 保存 一 个 字 。 在 某 些 计 算 机 中 ( 例如，Core i7), 
引用 内 存 字 不 需要 按照 内 存 中 的 自然 边界 对 齐 ， 而 在 另 一 些 计算 机 中 ( 如 OMAP4430 ARM ) 
则 必须 对 齐 。 即 使 内 存 字 不 需要 对 齐 ， 但 如 果 它 们 这 人 么 做 了 ， 对 机 器 的 性 能 也 是 有 提高 的 。 

指令 通常 有 一 个 、 两 个 或 者 三 个 操作 数 ， 寻 址 方式 包括 立即 寻 址 方式 、 直 接 寻 址 方式 、 
寄存 器 寻 址 方式 、 变 址 寻 址 方式 和 其 他 一 些 寻 址 方式 。 某 些 计算 机 还 有 大 量 的 复杂 的 寻 址 模 
式 。 在 大 多 数 情况 下 ， 编 译 器 并 不 能 高 效 地 使 用 它们 ， 所 以 它们 就 没 被 用 。 指 令 通 常用 于 转 
移 数 据 ， 执 行 一 元 或 者 二 元 运算 ,包括 算术 或 逻辑 运算 、 跳 转 、 过 程 调用 和 循环 ， 有 了 时候 还 
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包括 IO。 典 型 的 指令 包括 把 一 个 字 从 内 存 移 到 寄存 器 中 ( 或 者 相反 )， 加 、 减 、 乘 或 者 除 两 
个 寄存 器 或 者 一 个 寄存 器 和 一 个 内 存 字 ,或 者 比较 寄存 器 和 内 存 中 的 两 个 字 。 一 台 计 算 机 指 
令 系 统 的 指令 条 数 超过 200 条 是 很 常见 的 ，CISC 机 器 甚至 还 有 更 多 的 指令 。 

可 以 通过 使 用 各 种 原 语 来 实现 第 2 级 的 控制 流 ， 这 些 原 语 包括 跳 转 、 过 程 调用 、 协 同 过 
程 调用 、 陷 阱 和 中 断 。 跳 转 用 于 中 止 一 个 指令 序列 并 开始 一 个 新 的 指令 序列 。 过 程 是 一 种 抽 
象 机 制 ， 它 允许 把 一 部 分 程序 独立 出 来 作为 一 个 单元 ， 这 个 单元 可 以 在 多 个 地 方 被 调用 。 利 
用 过 程 所 实现 的 抽象 是 现代 编程 技术 的 基础 。 协 同 过 程 允许 两 个 线程 同步 执行 。 陷 阱 用 于 
通知 例外 情况 ， 比 如 算术 运算 溢出 。 中 断 人 允许 IO 和 主 计算 过 程 同步 执行 ， 当 1/O 完成 之 后 
CPU 可 以 得 到 一 个 信和 号。 

我 们 讨论 了 汉 诺 塔 问题 ， 这 是 一 个 有 趣 的 小 问题 ， 它 可 以 使 用 递归 算法 漂亮 地 求解 。 现 
在 人 们 也 已 经 找到 了 和 迭代 的 方法 来 解决 这 个 问题 ， 但 它们 实现 起 来 比 我 们 所 学 的 递归 方法 更 
加 复杂 ， 且 不 够 优雅 。 

最 后 ,使 用 EPIC 计算 模式 的 IA-64 体系 结构 使 我 们 可 以 很 容易 地 开发 程序 的 并 行 性 。 它 
还 使 用 了 指令 组 、 判 定 和 推测 加 载 技术 来 加 快速 度 。 总 而 言 之 ， 相 对 于 Core i7 而 言 ， 这 是 一 
个 显著 的 进步 ， 但 是 为 了 充分 发 挥 其 能 力 需 要 编写 能 进行 并 行 优化 的 编译 器 ， 这 是 一 个 相当 
沉重 的 负担 。 但 是 将 工作 放 在 编译 时 候 做 总 比 留 到 运行 时 才 做 好 。 


习题 


.小 端 派 32 位 计算 机 中 的 一 个 字 具 有 数值 值 3。 如 果 把 它 逐 个 字 节 转换 为 大 端 派 计算 机 的 字 
并 存储 ， 字 节 0 还 在 字 节 0， 依 此 类 推 。 那 么 这 个 字 在 大 端 派 32 位 计算 机 中 的 数值 值 是 
多 少 ? 

从 前 有 很 多 计算 机 和 操作 系统 都 使 用 过 分 离 指令 空间 和 数据 空间 的 策略 ， 使 用 上 位 地 址 的 
话 ， 可 以 允许 最 多 2* 大 小 的 程序 地 址 和 数据 地 址 。 例 如 厂 32 时 ,一 个 程序 可 以 访问 4GB 
的 指令 和 同样 大 小 的 数据 ， 因 此 总 共 的 地 址 空间 是 8GB。 在 这 种 策略 下 ， 程 序 重 写 它 本 身 
是 不 可 能 的 ， 请 问 操作 系统 如 何 将 程序 载 人 内 存 呢 ? 

.设计 一 种 扩展 操作 码 ， 使 下 面 的 所 有 指令 都 可 以 用 32 位 进行 编码 : 

15 条 带 两 个 12 位 地 址 和 一 个 4 位 寄存 器 编号 的 指令 ; 

650 条 带 一 个 12 位 地 址 和 一 个 4 位 寄存 器 编号 的 指令 ; 

80 条 无 地 址 无 寄存 器 的 指令 。 

某 种 计算 机 使 用 16 位 的 指令 和 6 位 地 址 。 某 些 指令 使 用 一 个 地 址 而 另 一 些 使 用 双 地 址 。 如 
果 两 地 址 指令 有 nn 条， 那么 单 地 址 指令 最 多 可 以 有 多 少 条 ? 

.有 可 能 设计 出 一 种 12 位 长 的 指令 格式 对 下 列 指令 进行 编码 吗 ? 其 中 每 个 寄存 器 需要 3 位 
编码 。 

4 条 3 寄存 器 指令 ; 

255 条 单 寄 存 器 指令 ; 

16 条 0 寄存 器 指令 。 

某 个 内 存 的 存储 情况 如 下 所 示 : 

第 20 个 字 是 40; 

第 30 个 字 是 50; 


一 


2 


w 


= 


wn 


a 
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第 40 SE 60; 
第 50 个 字 是 70. 
使 用 该 内 存 的 单 地 址 计算 机 带 有 一 个 累加 器 。 那 么 在 执行 下 面 的 指令 时 什么 值 将 被 调 
人 累加 器 ? 
a. LOAD IMMEDIATE 20 
b. LOAD DIRECT 20 
c. LOAD INDIRECT 20 
d. LOAD IMMEDIATE 30 
e. LOAD DIRECT 30 
f. LOAD INDIRECT 30 
7. 通过 编程 计算 
X=(A+BxC)/(D-EXF) 
来 比较 0 地址、1 地 址 、2 地 址 和 3 地 址 计算 机 。 各 种 计算 机 可 用 的 指令 如 下 : FEN 
0 地 址 1 地 址 2 地 址 3 地 址 
PUSH M LOAD M MOV (X=Y) MOV (X=Y) 
POP M STORE M ADD (X=X+Y) ADD (X= Y+Z) 
ADD ADD M suB (X=X-Y) SUB (X= Y-Z) 
SUB SUB M MUL (X= X*Y) MUL (X= Y*Z) 
MUL MUL M DIV (X=X/Y) DV (X=Y/Z) 
DIV DIVM 


M 是 16 位 内 存 地 址 ，X、Y 和 2Z 或 者 是 16 位 地 址 或 者 是 4 位 的 寄存 器 。0 地 址 计算 机 
使 用 栈 ，1 地 址 计算 机 使 用 一 个 累加 器 ， 其 他 两 种 计算 机 带 有 16 个 寄存 器 ， 它 们 的 指令 可 
以 对 内 存 地 址 和 寄存 器 的 所 有 组 合 进行 处 理 。SUB X,Y 表示 从 X PRE Y 而 SUB X,Y,Z # 
示 从 YY 中 减 去 Z 并 把 结果 放 在 X 中 。 假 定 操 作 码 是 8 位 而 指令 长 度 是 4 的 倍数 ， 这 些 计算 
机 计算 和 各 需要 多 少 位 ? 
8. 请 设计 一 种 寻 址 方式 ， 可 以 使 用 一 个 6 位 的 字段 从 一 个 大 的 地 址 空间 中 定义 任意 的 64 个 地 
址 ， 不 需要 连续 。 
9. 请 给 出 一 个 可 以 修改 自身 的 代码 的 缺点 ， 注 意 ， 必 须 是 本 书 中 没有 提 到 的 。 
10. 请 将 下 面 的 中 缀 式 转换 成 道 波兰 式 。 


a.A+B+C+D-E 
b.(A—B)x(C+D)+E 
c.(AxB)+(CxD)-E 
d.(A-B)x(((C—DxE)/F)/G)xH 


11. 下 面 每 组 的 逆 波 兰 表 达 式 在 数学 上 是 等 价 的 吗 ? 


AB+C+ 和 ABC++ 
AB-C- 和 ABC-—- 
ABxC+ 和 ABC+x 


12. PH F E A RM PAK 


a.AB-C+Dx 
b.AB/CD/+ 
c.ABCDE+xx/ 
d.ABCDExF/+G-—H/x+ 


13. 请 写 出 三 个 不 能 转换 成 中 组 式 的 逆 波 兰 式 。 
14. 将 下 面 的 中 缀 逻辑 式 转换 成 逆 波 兰 式 。 


a. (A AND B) ORC 
b. (A OR B) AND (A OR C) 
c. (A AND B) OR (C AND D) 


312 RSF 


15. 将 下 面 的 中 缀 式 转 换 成 逆 波 兰 式 并 生成 IVM 代码 来 进行 评价 。 
(5x2+7)-(4/2+1) 

16. 指令 格式 如 图 5-24 所 示 的 计算 机 中 有 多 少 个 可 用 寄存 器 ? 

17. 在 图 5-24 中 ， 第 23 位 被 用 来 区 分 指令 格式 1 和 指令 格式 2。 但 没有 提供 用 于 区 分 指令 格 
式 3 的 位 。 那 么 硬件 是 如 何 知 道 当 前 使 用 的 是 指令 格式 3 呢 ? 

18. 在 编程 中 经 常 需要 决定 和 4B 之 间 的 间隔 相关 的 变量 了 对 的 位 置 。 如 果 可 以 使 用 带 三 个 操作 
数 4、B 和 的 三 地 址 指令 ， 那么 根据 这 条 指令 可 以 设置 多 少 个 条 件 位 ? 

19. 指出 使 用 PC 相关 寻 址 的 一 个 好 处 和 一 个 缺点 。 

20. 在 Core i7 中 ， 有 一 个 条 件 码 位 用 于 记录 算术 运算 后 第 3 位 向 上 一 位 的 进位 。 这 样 做 的 好 
处 是 什么 ? 

. 你 的 一 个 朋友 在 凌晨 3 点 的 时 候 突然 冲 和 你 的 房间 ， 上 和 气 不 接 下 气 地 告诉 你 他 (她 ) 的 天 
才 的 新 思想 : 每 条 指令 带 两 个 操作 码 。 你 是 把 你 的 朋友 送 到 专利 办 公 室 还 是 把 他 (她 ) 赶 
回 设计 桌 前 ? 

.下 列 形式 的 测试 在 编程 中 是 很 常见 的 : 


if (k == 0)... 
if (a > b) ... 
if (k <5)... 


设计 一 条 可 以 高 效率 地 执行 这 种 测试 的 指令 。 在 你 的 指令 中 都 有 哪些 字段 ? 
. 写 出 对 16 位 二 进 制 数 1001 0101 1100 0011 分 别 执行 下 列 移 位 操作 后 的 结果 : 
a HB 41, 左面 填充 0。 

b. 右 移 4 位 ， 符 号 扩展 。 

c. 左 移 4 位。 

d. 循环 左 移 4 位 。 

e. 循环 右 移 4 位 。 

24. 不 使 用 CLR 指令 你 能 清除 一 个 内 存 字 吗 ? 

25. 对 如 下 的 ABC 值 执行 逻辑 表达 式 ( A AND B) ORC, 


A=1101 0000 1010 0011 
B=1111 1111 0000 1111 
C = 0000 0000 0010 0000 


26. 设计 一 种 不 使 用 第 三 个 变量 和 寄存 器 而 能 够 交换 两 个 变量 A 和 B 的 值 的 方法 。 提 示 : 想 
一 想 EXCLUSIVE OR 指令 。 

.在 某 种 计算 机 中 ， 可 以 把 一 个 数 从 一 个 寄存 器 拷贝 到 另 一 个 寄存 器 ， 把 它们 左 移 若 干 位 ， 
再 把 结果 相 加 ， 花 费 的 总 时 间 要 小 于 乘法 操作 的 时 间 。 在 什么 条 件 下 该 指令 序列 可 以 用 于 
计算 “常量 x 变量 ” 呢 ? 

.不 同 的 计算 机 有 不 同 的 指令 密度 ( 执行 某 种 特定 计算 需要 的 字 节 数 )。 将 下 面 的 Java 语句 
逐条 翻译 成 Core i7 汇编 语言 和 UVM 汇编 语言 。 然 后 计算 每 个 表达 式 在 每 种 计算 机 中 需 
要 的 字 节 数 。 假 定 1 和 jj 是 内 存 中 的 局 部 变量 ， 其 他 的 条 件 都 假定 为 理想 情况 。 

ink 

CG jsj= 书 

29. 在 本 章 中 讨论 的 循环 指令 是 处 理 for 循环 的 。 设 计 一 条 处 理 while 循环 的 指令 。 

30. 假定 汉 诺 的 僧侣 每 分 钟 可 以 移动 一 个 盘子 ( 他们 并 不 急于 完成 工作 因为 在 汉 诺 对 于 那些 有 


2 


paas 


2 


N 


2 


U 


aA 


2 


N 


2 


co 


HARE 313 


这 种 特殊 技能 的 人 来 说 就 业 机 会 是 有 限 的 )。 那 么 解决 64 个 盘子 的 问题 需要 多 长 时 间 ? 请 
用 年 为 单位 来 表示 你 的 结果 。 

31. 为 什么 VO 设备 把 中 断 向 量 放 在 总 线 上 ? 可 以 把 此 信息 保存 在 内 存 中 的 一 张 表 中 吗 ? 

32. 一 台 计 算 机 使 用 DMA 从 磁盘 读 取 数 据 。 该 磁盘 每 个 磁道 有 64 个 512 字 节 的 扇 区 。 磁 盘 
的 旋转 周期 是 16 毫秒 。 总 线 宽度 为 16 位 ， 每 次 总 线 传输 需要 500ns。 每 条 CPU 指令 平均 
需要 两 个 总 线 周期 。 那 么 由 于 DMA, CPU 将 会 慢 多 少 ? 

33. 图 5-32 描述 的 DMA 传输 需要 两 条 传输 总 线 来 在 内 存 和 VO 设备 之 间 传 输 数据 。 如 果 使 用 
图 5-35 所 示 的 总 线 体系 结构 的 话 ，DMA 的 性 能 能 够 提高 多 少 ? 

34. 为 什么 中 断 处 理 程序 有 优先 级 而 一 般 的 程序 没有 优先 级 ? 

35.1A-64 体系 结构 包括 大 量 的 寄存 器 ( 64 个 )， 这 一 特点 很 不 寻常 。 它 们 中 的 大 部 分 是 否 用 于 
预测 ? 如 果 是 ， 怎 么 用 ? 如 果 不 是 ， 那 么 为 什么 有 这 人 么 多 寄存 器 ? 

36. 本 章 讨论 了 推测 LOAD 指令 。 但 没有 提 到 推测 STORE 指令 。 为 什么 没有 ? 是 因为 它们 和 
推测 LOAD 指令 相同 还 是 别 的 原因 ? 讨论 一 下 。 

37. 当 两 个 局 域 网 相连 的 时 候 ， 在 两 者 之 间 和 两 者 都 相连 的 那 台 计算 机 称 为 桥接 器 (bridge )。 
在 这 两 个 网 络 中 每 传送 一 个 包 都 会 在 桥接 器 上 产生 一 次 中 断 ， 用 来 判定 该 包 是 否 应 该 向 前 
发 送 。 假 定 每 个 包产 生 的 中 断 需要 花 250 微 秒 进 行 处 理 并 检测 该 包 ， 而 如 果 需 要 将 该 包 向 
前 传输 ， 将 由 DMA 硬件 直接 处 理 而 不 需要 CPU。 如 果 所 有 包 的 大 小 都 是 IKB ,那么 在 
这 两 个 网 络 中 使 桥接 器 不 丢 包 的 最 大 数据 传输 率 是 多 少 ? 

38. 在 图 5-40 中 ， 帧 指针 指向 第 一 个 局 部 变量 。 为 了 从 过 程 返回 ， 程 序 需要 什么 信息 ? 

39. 写 一 段 汇 编 语 言 程 序 把 带 符号 二 进 制 整数 转换 成 ASCII。 

40. 写 一 段 汇编 语言 程序 把 中 缀 表达 式 转换 成 逆 波 兰 式 。 

41. 汉 诺 塔 并 不 是 计算 机 科学 家 喜爱 的 唯一 的 递归 程序 。 男 一 个 深 受 喜爱 的 是 n!，n!=n(n-1)!， 
起 始 条 件 是 0!=1。 用 你 熟悉 的 汇编 语言 写 出 计算 n! 的 程序 。 

42. 如 果 你 不 相信 在 某 些 情况 下 递归 是 必 不 可 少 的 ， 请 试 一 试 在 不 使 用 递归 也 不 使 用 栈 模拟 递 
归 的 条 件 下 编写 汉 诺 塔 程序 。 但 是 我 要 警告 你 ， 你 可 能 永远 也 找 不 到 答案 。 
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操作 系统 层 





本 书 的 主要 思想 是 现代 计算 机 是 由 一 系列 的 层次 组 成 的 ， 每 层 都 在 下 层 的 基础 上 增加 功 
能 。 到 目前 为 止 我 们 已 经 研究 了 数字 逻辑 层 、 微 体系 结构 层 和 指令 系统 层 。 现 在 我 们 把 目光 
投向 再 上 面 的 一 层 ， 进 入 操作 系统 的 世界 。 

从 程序 员 的 观点 来 看 ， 操 作 系 统 (operating system ) 
是 一 个 在 指令 系统 层 提 供 的 指令 和 特性 之 上 又 增加 了 
新 指令 和 特性 的 程序 。 一 般 来 说 ， 操 作 系 统 是 由 软件 
实现 的 ， 但 是 从 理论 上 说 ， 操 作 系 统 也 可 以 用 硬件 
实现 ， 这 一 点 和 通常 的 征程 序 一 样 ( 如 果 使 用 微 程 
序 )。 为 了 简短 起 见 ， 我 们 把 该 层 称 为 操作 系统 机 器 

| 微 体系 结构 层 | 
( Operating System Machine, OSM) 层 为 (为 叙述 方 TR sci 
便 ， 下 面 简称 操作 系统 层 )， 如 图 6-1 所 示 。 图 6-1 操作 系统 层 的 位 置 

尽管 操作 系统 层 和 指令 系统 层 都 是 抽象 的 层次 〈 从 某 种 意义 上 说 ， 它 们 都 不 是 真正 的 硬 
件 层次 )， 但 它们 之 间 仍 然 具 有 重要 的 区 别 。 操 作 系 统 层 指 令 集 是 应 用 程序 员 可 用 的 全 指令 
集 。 它 包括 几乎 所 有 的 指令 系统 层 指 令 和 操作 系统 层 增 加 的 新 指令 。 这 些 新 指令 称 为 系统 调 
用 (system call )。 一 个 系统 调用 使 用 一 条 指令 调用 一 个 预先 定义 好 的 操作 系统 服务 ， 实 际 上 
它 也 就 是 一 条 指令 。 一 个 典型 的 系统 调用 是 从 一 个 文件 中 读 取 数据 。 

操作 系统 层 总 是 解释 执行 的 。 当 一 个 用 户 程序 执行 一 条 操作 系统 层 指 令 时 ， 比 如 说 从 一 
个 文件 中 读 取 数据 ， 操 作 系 统 将 一 步 一 步 地 执行 这 条 指令 ， 就 像 微 程序 一 步 一 步 地 执行 一 条 
ADD 指令 一 样 。 但 是 ， 当 程序 执行 到 一 条 指令 系统 层 指 令 时 ， 微 体系 结构 层 会 直接 执行 这 条 
指令 ， 不 需要 操作 系统 的 任何 帮助 。 

在 本 书 中 ， 我 们 只 能 对 操作 系统 做 最 简单 的 介绍 。 我 们 将 集中 讨论 三 个 重要 的 方面 。 首 
先是 虚拟 内 存 ， 许 多 操作 系统 都 提供 这 种 技术 ， 使 用 这 种 技术 可 以 使 计算 机 的 内 存 看 起 来 比 
实际 内 存 大 。 其 次 是 文件 TO， 这 上 比 我 们 在 上 一 章 中 研究 的 IO 指令 要 高 一 个 层次 。 最 后 一 个 
方面 是 并 行 处 理 一 一 多 个 进程 如 何 执行 ， 相 互 之 间 如 何 通 信 ， 如 何 保持 同步 。 进 程 是 一 个 很 
重要 的 概念 ， 在 本 章 后 面 将 对 它 进 行 详细 描述 。 在 这 里 ， 我 们 可 以 暂时 把 进程 理解 成 一 个 运 
行程 序 和 它 的 全 部 的 状态 信息 ( 内存、 寄存 器 、 程 序 计 数 器 、IO 状态 等 )。 在 讨论 基本 原理 
之 后 ， 我 们 将 看 一 看 这 些 原 理 是 如 何 应 用 到 我 们 的 两 种 范例 计算 机 一 一 Core i7( 运行 Windows 7 ) 
和 OMAP4430 ARM CPU ( 运行 Linux ) 的 操作 系统 之 中 的 。 由 于 ATmega 168 微 控制 器 通常 
用 于 众人 式 系统 ， 因 而 它 没 有 一 个 完整 的 操作 系统 。 


6.1 虚拟 内 存 


早期 计算 机 的 内 存 又 小 又 贵 。20 世纪 50 年 代 后 期 的 最 主要 的 用 于 科学 计算 的 计算 机 
IBM 650， 内 存 大 小 只 有 2000 个 字 。 为 计算 机 编写 的 第 一 个 ALGOL 60 编译 器 只 使 用 了 1024 
个 内 存 字 。 在 PDP-1 上 运行 得 很 出 色 的 一 个 早期 的 分 时 系统 只 为 操作 系统 和 用 户 程 序 提供 了 
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18 位 字 长 ， 总 共 4096 个 字 的 内 存 。 当 时 的 程序 员 要 花费 大 量 的 时 间 把 程序 塞 人 小 得 可 怜 的 
内 存 中 。 经 常 需要 使 用 比 最 优 算法 慢 很 多 的 算法 ， 只 是 因为 好 的 算法 通常 比较 大 一 一 也 就 是 
说 ， 计 算 机 的 内 存放 不 下 使 用 好 算法 的 程序 。 

解决 这 一 问题 的 传统 方案 是 使 用 辅助 存储 器 ， 比 如 磁盘 。 程 序 员 把 程序 分 成 许多 片断 ， 
称 为 覆盖 段 ( overlay )， 每 个 覆盖 段 都 能 装 人 人 内存。 为 了 运行 程序 ， 第 一 个 覆盖 段 被 装 人 内 存 
然后 运行 一 会 。 当 它 运 行 结束 时 ， 读 入 下 一 个 覆盖 段 然后 调用 它 ， 依 此 类 推 。 程 序 员 负责 把 
程序 划分 成 覆盖 段 ， 决 定 每 个 覆盖 段 保 存在 二 级 存储 器 的 什么 位 置 上 ， 安 排 覆 盖 段 在 主 存 和 
二 级 存储 器 之 间 的 调度 。 一 般 来 说 ， 计 算 机 对 整个 覆盖 过 程 的 管理 不 提供 任何 帮助 。 

尽管 广泛 使 用 了 许多 年 ， 但 这 项 技术 还 是 包括 了 许多 和 覆盖 段 管理 相关 的 工作 。1961 年 ， 
英国 曼彻斯特 的 一 组 研究 人 员 提 出 了 一 种 自动 执行 覆盖 过 程 的 方法 ， 程 序 员 甚至 不 用 知道 到 
底 发 生 了 什么 (Fotheringham，1961 )。 这 种 现在 称 为 虚拟 内 存 ( virtual memory ) 的 方法 的 优 
越 性 是 显而易见 的 ， 它 把 程序 员 从 大 量 烦 珊 的 管理 工作 中 解放 出 来 。 在 20 世纪 60 年 代 中 期 ， 
它 首先 用 在 一 些 和 计算 机 系统 设计 研究 课题 密切 相关 的 计算 机 中 。 到 了 20 世纪 70 年 代 早 期 ， 
大 多 数 计算 机 都 实现 了 虚拟 内 存 。 而 现在 ， 即 使 是 单 片 计算 机 ,包括 Core i7 和 OMAP4430 
ARM CPU 都 使 用 了 非常 复杂 的 虚拟 内 存 系统 。 在 本 章 的 后 面 我 们 将 会 详细 讨论 它们 。 


6.1.1 内存 分 页 


曼彻斯特 研究 组 提出 的 思想 是 把 地 址 空间 的 概念 和 内 存 区 域 的 概念 分 开 。 作 为 例子 ， 让 
我 们 考虑 当时 的 一 种 典型 的 计算 机 ， 它 的 指令 有 16 位 的 地 址 域 ， 内 存 大 小 为 4096 个 字 。 该 
计算 机 中 程序 可 以 寻 址 65 536 个 内 存 字 。 原 因 是 一 共存 在 65 536 (2 的 16 次 方 ) 个 16 位 地 
址 ， 每 个 都 对 应 于 不 同 的 内 存 字 。 请 注意 ， 可 寻 址 字 的 数量 只 依赖 于 地 址 的 位 数 而 和 实际 可 
用 的 内 存 字 的 数量 无 关 。 这 人 台 计 算 机 的 地 址 空间 (address space) 由 0、1、2、…、65 535 组 成 ， 
这 是 所 有 可 用 地 址 的 集合 。 但 是 该 计算 机 的 实际 内 存 可 以 比 65 535 少 得 多 。 

在 虚拟 内 存 提出 之 前 ， 使 用 该 计算 机 的 人 们 会 在 低 于 4096 的 地 址 和 等 于 或 大 于 4096 的 
地 址 之 间 划 一 条 界线 。 这 两 部 分 分 别称 为 可 用 地 址 空间 和 无 用 地 址 空间 ( 大 于 4095 的 地 址 
是 无 用 的 ， 因 为 它们 不 对 应 任何 实际 内 存 地 址 )。 人 们 并 不 在 地 址 空间 和 内 存 空间 之 间 划 分 界 
限 ， 因 为 硬件 迫使 它们 之 间 具 有 一 对 一 的 关系 。 

将 地 址 空间 和 内 存 空 间 相 分 离 的 思想 是 这 样 的 。 在 任何 时 候 ， 都 只 有 4096 个 内 存 字 可 
以 被 直接 访问 ， 但 是 它们 并 不 需要 对 应 于 内 存 地 址 0 ~ 4095。 比 如 说 ， 我 们 可 以 “告诉 ” 计 
算 机 ， 从 此 以 后 ， 无 论 何 时 访问 地 址 4096 时 ， 都 使 用 地 址 为 0 的 内 存 字 。 无 论 何 时 访问 地 址 
4097 时 ， 都 使 用 地 址 为 1 的 内 存 字 ; 无 论 何 时 访问 地 址 8091 时 ， 都 使 用 内 存 地 址 4095， 等 
等 。 换 句 话 说， 我 们 可 以 在 地 址 空间 和 实际 内 存 地 址 之 间 定 义 一 个 映射 ， 如 图 6-2 所 示 。 


地 址 空间 


映射 4K 主 存 


4096 = <— 4095 
0 一 ~ 0 


图 6-2 虚拟 地 址 4096 ~ 8191 映射 到 内 存 地 址 0 ~ 4095 
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按照 这 张 从 地 址 空间 到 实际 内 存 空间 的 映射 图 ， 没 有 虚拟 内 存 的 4KB 内 存 的 计算 机 只 具 
有 地 址 0 ~ 4095 这 4096 个 地 址 和 4096 个 内 存 字 之 间 的 固定 映射 。 一 个 有 趣 的 问题 是 :“ 当 
程序 跳 转 到 8192 和 12 287 之 间 的 地 址 时 会 发 生 什么 ?” ”在 没有 虚拟 内 存 的 计算 机 中 ， 程 序 
会 产生 一 个 错误 陷阱 并 打印 一 条 合适 的 错误 信息 ， 比 如 “使 用 了 不 存在 的 地 址 ”然后 终止 程 
序 执行 。 而 在 有 虚拟 内 存 的 计算 机 上 ， 将 会 依次 执行 下 面 的 动作 : 

1 ) 将 内 存 的 内 容 保 存 到 磁盘 上 。 

中 在 磁盘 上 找到 字 8192 ~ 12 287。 

KHE 8192 ~ 12287 之 间 的 所 有 内 容 调 人 内 存 。 

@@ 地 址 映射 将 发 生变 化 ， 把 地 址 8192 ~ 12 287 映射 到 内 存 地 址 0 ~ 4095。 

@ 程 序 继 续 执 行 就 好 像 什么 事 也 没 发 生 过 。 

这 种 自动 覆盖 技术 称 为 分 页 (paging )， 程 序 从 磁盘 上 读 取 的 数据 块 称 为 页 (page )。 

从 地 址 空间 到 实际 物理 地 址 的 映射 还 可 以 采用 一 种 更 复杂 的 方式 。 强 调 一 下 ， 我 们 把 
程序 使 用 的 地 址 空间 称 为 虚拟 地 址 空间 (virtual address space )， 而 实际 的 物理 内 存 地 址 称 为 

440) 物理 地 址 空间 (physical address space )。 一 个 内 存 映 射 (memory map) 或 者 称 为 页 表 (page 

table ) 用 于 在 虚拟 地 址 和 物理 地 址 之 间 建 立 联系 。 我 们 假定 磁盘 上 有 足够 的 空间 保存 整个 虚 
拟 地 址 空间 ( 至 少 能 保存 用 到 的 部 分 )。 

编写 程序 时 就 好 像 内 存 有 整个 虚拟 地 址 空间 那么 大 ， 虽 然 实际 上 可 能 不 是 这 样 。 程 序 可 
以 存 取 虚 拟 地 址 空间 之 内 的 任何 字 ， 还 可 以 跳 转 到 位 于 虚拟 地 址 空间 之 内 的 任何 位 置 的 指令 
去 执行 ， 而 不 用 考虑 实际 的 物理 内 存 的 大 小 。 实 际 上 ， 程 序 员 编写 程序 时 根本 觉察 不 到 虚拟 
内 存 的 存在 。 计 算 机 看 起 来 就 好 像 有 一 个 很 大 的 内 存 。 

这 一 点 很 关键 ， 它 和 后 面 将 要 提 到 的 分 段 机 制 形成 了 鲜明 的 对 照 ， 在 分 段 机 制 中 ， 程 序 
员 必 须 注意 段 的 存在 。 再 强调 一 次 ， 内 存 分 页 可 以 让 程序 员 产 生 错 觉 : 我 有 一 个 和 虚拟 地 址 
空间 一 样 大 的 连续 的 、 线 性 的 内 存 。 实 际 上 可 用 的 内 存 可 以 小 于 (或 者 大 于 ) 虚拟 地 址 空间 。 
程序 觉察 不 出 这 个 大 的 内 存 是 使 用 页 方式 模拟 出 来 的 ( 除非 运行 时 间 测 试 程序 )。 无 论 何 时 引 
用 一 个 地 址 ， 都 会 得 到 位 于 该 地 址 的 正确 的 指令 或 者 数据 。 由 于 程序 员 编 程 时 就 好 像 页 不 存 
在 ， 因 此 这 种 分 页 机 制 是 透明 的 〈transparent ). 

其 实 这 种 程序 员 可 以 使 用 某 些 并 不 存在 的 特性 而 不 用 考虑 它 的 工作 方式 的 思想 对 我 们 来 
说 并 不 陌生 。 指 令 系 统 层 指令 集 通常 包括 MUL 指令 ， 即 使 底层 的 微 体系 结构 层 没 有 硬件 乘 
法 器 件 。 计 算 机 可 以 做 乘法 完全 是 由 微 码 支持 的 。 类 似 地 ， 操 作 系 统 提供 的 虚拟 机 也 可 以 使 
我 们 产生 这 样 的 印象 ， 实 际 内 存 完 全 支持 虚 地 址 ， 虽 然 这 不 是 真 的 。 只 有 操作 系统 的 设计 者 
(还 有 操作 系统 课 的 学 生 ) 才 知 道 其 内 部 的 实现 原理 。 


6.1.2 ”内 存 分 页 的 实现 


一 块 能 够 保存 整个 程序 和 所 有 数据 的 磁盘 是 实现 虚拟 内 存 的 基本 要 求 。 磁 盘 可 以 是 旋转 
的 硬盘 或 者 是 固态 盘 。 尽 管 本 书后 面部 分 为 了 简便 起 见 都 称 为 硬盘 ， 但 要 记 住 其 实 应 该 包括 
固态 盘 在 内 。 如 果 我 们 把 磁盘 上 的 程序 拷贝 看 作 是 初始 的 源 ， 而 把 每 次 调和 人 内存 的 片段 看 作 
是 它 的 拷贝 而 不 是 别 的 什么 东西 ， 在 概念 上 就 简单 多 了 。 很 自然 ， 保 持原 始 版 本 的 及 时 更 新 

是 很 重要 的 。 当 内 存 中 的 拷贝 发 生变 化 时 ， 原 始 版 本 最 终 也 应 该 同样 发 生变 化 。 
虚拟 地 址 空间 被 分 成 许多 大 小 相等 的 页 。 现 代 计 算 机 的 页 大 小 从 512 字 节 到 64KB 不 等 ， 
(441) 有 时 候 还 会 用 4MB 那么 大 的 页 。 页 大 小 总 是 2 的 星 ， 例 如 每 页 大 小 为 2， 那 么 所 有 的 地 址 就 
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可 以 用 左 位 来 表示 。 物 理 地 址 空间 同样 被 分 成 许多 片 ， 每 一 片 都 和 页 一 样 大 ， 这 样 内 存 的 每 
一 片 都 可 以 装 下 一 页 。 内 存 中 这 些 和 页 一 样 的 片 称 为 页 帧 (page frame )。 图 6-2 中 的 内 存 只 
包括 一 个 页 帧 。 在 实际 的 设计 中 ， 内 存 通常 包括 数 千 个 页 帧 。 

图 6-3a 是 把 虚拟 地 址 空间 的 前 64KB 分 成 4KB 大 小 的 页 的 一 种 可 行 的 方法 。( 注意 ,我 
们 这 里 讨论 的 地 址 是 64KB 和 4KB， 地 址 可 以 是 字 节 ， 也 可 以 是 字 ， 只 要 连续 的 字 有 连续 的 
地 址 就 可 以 了 )。 图 6-3 中 的 虚拟 内 存 可 以 用 一 张 页 表 实 现 ， 页 表 中 表 项 的 数量 等 于 虚拟 地 址 
空间 中 页 的 数量 。 为 了 把 问题 简化 ， 在 这 里 我 们 只 列 出 了 前 16 个 表 项 。 当 程序 想 引 用 位 于 虚 
拟 地 址 空间 前 64KB 的 一 个 字 时 ， 不 论 是 取 指 令 、 取 数据 还 是 存 数 据 ， 它 都 要 首先 生成 一 个 
0 ~ 65 532 (假定 字 地 址 必须 能 被 4 整除 ) 之 间 的 虚拟 地 址 。 变 址 寻 址 、 间 接 寻 址 和 所 有 其 
他 的 常见 技术 都 可 以 用 于 生成 这 一 虚拟 地 址 。 


页 号 虚拟 地 址 


61 440 ~ 65 535 
57 344 ~ 61 439 









49 152 ~ 53 247 
45 056 ~ 49 151 
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主 存 底部 的 32K 
HU 物理 内 存 


e [aaen | 
a [ieman 












8192 ~ 12 287 8192 ~ 12 287 
| a | 4096~ 8191 


a) 虚拟 地 址 空间 的 前 64KB 划 分 成 16 个 4KB 大 小 的 页 b) 32KB 的 内 存 分 成 8 张 4KB 大 小 的 页 
图 6-3 


图 6-3b 是 由 8 个 4KB 大 小 的 页 帧 组 成 的 物理 地 址 。 这 个 内 存 被 限制 在 32KB 以 内 是 因 
为 (1) 这 就 是 该 计算 机 的 全 部 内 存 (一 台 洗衣 机 或 者 微波 炉 中 的 处 理 器 可 能 不 需要 更 多 的 内 
FT ) 或 者 (2 ) 其 他 的 内 存 分 配给 了 其 他 的 程序 。 

现在 考虑 如 何 把 32 位 的 虚拟 地 址 映射 成 物理 内 存 地 址 。 别 忘 了 ， 内 存 能 够 理解 的 唯一 
的 地 址 就 是 内 存 地 址 ， 因 此 在 访问 内 存 时 必须 给 出 内 存 物理 地 址 。 每 一 台 使 用 虚拟 内 存 的 
计算 机 都 有 一 个 完成 虚拟 地 址 到 物理 地 址 映射 的 部 件 。 此 部 件 称 为 内 存 管理 单元 (Memory 
Management Unit, MMU )。 它 可 以 位 于 CPU 芯片 内 部 ， 也 可 以 是 一 块 和 CPU 协同 工作 的 单 
独 的 芯片 。 由 于 我 们 作为 例子 的 内 存 管理 单元 需要 把 32 位 的 虚拟 地 址 映射 成 15 位 的 物理 地 
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址 ， 因 此 它 需要 32 位 的 输入 寄存 器 和 15 位 的 输出 寄存 器 。 

为 了 搞 清 楚 内 存 管理 单元 (MMU ) 是 如 何 工作 的 ， 让 我 们 看 图 6-4 中 的 例子 。 当 内 存 管 
理 单元 使 用 32 位 虚拟 地 址 时 ， 它 把 地 址 分 为 20 位 的 虚拟 页 号 和 12 位 的 页 内 偏 移 量 ( 因为 在 
我 们 的 例子 中 ， 页 的 大 小 是 4K )。 使 用 虚 页 号 作为 索引 到 页 表 中 寻找 要 使 用 的 页 。 在 图 6-4 
中 ， 虚 页 号 是 3， 因 此 页 表 中 的 第 3 项 被 选中 ， 如 图 6-4 所 示 。 


15 位 内 存 地 址 


a 中 job sza 


一 一 一 
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图 6-4 从 虚拟 地 址 形成 内 存 地 址 


内 存 管理 单元 获得 页 表 项 后 做 的 第 一 件 事情 是 检查 该 页 是 否 在 内 存 中 。 毕 竟 ， 虚 页 有 2” 
个 而 页 帧 只 有 8 个 ， 不 可 能 所 有 的 虚 页 都 在 内 存 中 。 内 存 管理 单元 通过 检查 页 表 项 中 的 存在 / 
缺失 位 (present/absent bit) 来 判断 该 页 是 否 在 内 存 中 。 在 我 们 的 例子 中 ， 该 位 是 1， 这 意味 
着 该 页 当前 正在 内 存 中 。 

下 一 步 是 从 表 项 中 获得 页 帧 的 值 (在 该 例子 中 是 6) 并 把 它 拷贝 到 15 位 的 输出 寄存 器 的 
最 高 三 位 中 。 由 于 物理 内 存 中 有 8 个 页 帧 ， 因 此 需要 3 位 来 表示 。 在 执行 此 操作 的 同时 ， 低 
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12 位 虚拟 地 址 (页 内 偏 移 地 址 ) 也 被 拷贝 到 输出 寄存 器 的 低 12 位 中 ， 如 图 6-4 所 示 。 现 在 可 
以 把 这 15 地 址 送 到 cache 或 者 内 存 中 去 进行 查找 了 。 

图 6-5 是 虚 页 和 物理 页 帧 之 间 的 一 种 可 能 的 映射 关系 。 虚 页 0 位 于 页 帧 1， 虚 页 1 位 于 页 
帧 0， 虚 页 2 不 在 内 存 中 ， 虚 页 3 位 于 页 帧 2， 虚 页 4 不 在 内 存 中 ， 虚 页 5 位 于 页 帧 6 等 等 。 


页 表 
虚 页 号 Tiwi 


oOo - NR win ANS 





虚 页 1 


1= 在 主 存 里 
0= 不 在 主 存 里 


图 6-5 把 前 16 个 虚 页 映射 到 只 有 8 个 页 帧 的 内 存 的 一 种 可 能 的 方式 


6.1.3 请 求 调 页 和 工作 集 模 型 


在 前 面 的 讨论 中 ， 我 们 假定 要 访问 的 虚 页 在 内 存 中 。 然 而 ， 这 样 的 假定 并 不 一 定 成 立 ， 
因为 内 存 没有 足够 的 空间 保存 所 有 的 虚 页 。 当 需要 访问 的 地 址 所 在 的 页 不 在 内 存 中 时 ， 就 会 ”[44 引 
发 生 缺 页 (page fault )。 发 生 缺 页 后 ， 操 作 系 统 需 要 从 磁盘 上 读 取 需 要 的 页 ， 放 入 页 表 中 对 应 
的 新 的 物理 内 存 位置 ， 并 重新 执行 导致 缺 页 的 指令 。 
在 使 用 虚拟 内 存 的 计算 机 上 运行 程序 时 有 可 能 发 生 程序 的 任何 一 部 分 都 不 在 内 存 的 情况 。 
页 表 中 只 标识 出 每 一 个 虚 页 都 位 于 辅助 存储 器 上 而 不 在 内 存 中 。 当 CPU 试图 取 第 一 条 指令 
时 ， 会 立即 产生 缺 页 ， 缺 页 后 的 操作 把 包括 第 一 条 指令 的 页 调 人 内 存 并 写 人 页 表 。 然 后 就 可 
以 执行 第 一 条 指令 了 。 如 果 第 一 条 指令 有 两 个 地 址 ， 而 这 两 个 地 址 来 自 不 同 的 页 ， 也 就 是 说 
它们 的 指令 页 不 同 ， 这 会 产生 两 个 或 者 更 多 的 缺 页 ， 在 最 终 执行 指令 之 前 将 把 两 个 或 者 更 多 
的 页 调 人 内存 。 同 样 ， 下 一 条 指令 也 可 能 产生 缺 页， 执行 的 操作 与 此 类 似 。 
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这 种 管理 虚拟 内 存 的 方法 称 为 请 求 调 页 (demand paging )， 它 类 似 于 我 们 大 家 都 知道 的 
婴儿 请 求 喂奶 算法 ， 当 婴儿 句 时 ， 你 就 给 它 喂奶 ( 当然 如 果 你 有 一 个 精确 的 喂奶 时 间 表 ， 你 
可 以 不 理会 它 )。 在 请 求 调 页 方式 中 ， 只 有 当 实际 需要 一 个 页 时 ， 此 页 才 会 被 调 人 内 存 ， 而 不 
会 预先 把 它 调 入 内 存 。 

只 有 程序 初次 执行 时 才 会 发 生 请 求 调 页 。 一 旦 程序 运行 了 一 会 之 后 ,需要 的 页 就 已 经 被 
调 人 到 内 存 中 了 。 如 果 计 算 机 是 分 时 使 用 的 ， 进 程 每 运行 100 毫秒 左右 就 切换 一 次 ,那么 每 
个 程序 在 它 的 运行 过 程 中 都 会 重新 启动 好 多 次 。 由 于 每 个 程序 都 有 一 张 内 存 映射 表 ， 当 程序 
切换 时 它 同样 也 会 发 生变 化 ， 例 如 ， 在 一 个 分 时 系统 中 ， 这 种 重复 执行 是 一 个 严重 的 问题 。 

根据 观察 ， 我 们 发 现 大 多 数 的 程序 并 不 是 均匀 地 访问 它们 的 地 址 空间 而 是 趋向 于 集中 
使 用 一 小 部 分 页 。 这 个 概念 就 称 作 局 部 性 原理 (locality principle )。 一 次 内 存 访问 可 以 取 一 
条 指令 ， 取 数据 或 者 存 数 据 。 在 任何 时 刻 :， 都 存在 由 上 次 最 近 的 内 存 访问 使 用 的 页 的 集合 。 
Denning ( 1968 ) 把 这 一 集合 称 为 工作 集 (working set )。 

一 般 来 说 ， 工 作 集 的 变化 速度 比较 缓慢 ， 因 此 在 程序 重新 运行 时 我 们 就 可 以 对 需要 用 到 
的 页 做 合理 的 猜测 ， 猜 测 基 于 程序 上 次 停止 时 的 工作 集 状况 。 在 程序 启动 之 前 可 以 预先 把 这 
些 页 调和 人 内存 (也 就 是 说 ， 假 定 它们 会 命中 )。 


6.1.4 页 置换 策略 


在 理想 情况 下 ， 程 序 当前 正在 频繁 使 用 的 页 的 集合 称 为 工作 集 ， 在 内 存 中 保持 工作 集中 
的 页 可 以 减少 缺 页 次 数 。 然 而 ， 程 序 员 很 难 知道 工作 集中 的 页 有 哪些 ， 因 此 操作 系统 必须 动 
态 地 找 出 工作 和 集 。 当 程序 引用 不 在 内 存 中 的 页 时 ， 必 须 从 磁盘 上 读 取 和 需要 的 页 。 一 般 来 说 ， 
为 了 给 它 让 出 空间 ， 还 要 把 某 个 其 他 的 页 写 回 磁盘 。 因 此 我 们 需要 一 个 算法 来 决定 把 哪个 页 


“ 写 回 磁盘 。 


随机 地 选择 删除 一 个 页 不 是 一 个 好 主意 。 如 果 磁 巧 选 中 了 包含 缺 页 指令 的 页 ， 那 么 只 要 
试图 去 取 下 一 条 指令 就 又 会 发 生 一 次 缺 页 中 断 。 大 多 数 操作 系统 都 试图 预测 内 存 中 的 哪 一 个 
页 是 最 少 使 用 的 ， 最 少 使 用 的 意义 是 如 果 把 它 从 内 存 中 移 走 对 正在 运行 的 程序 产生 的 负面 影 
响 最 小 。 一 种 方法 是 预测 每 个 页 的 下 次 访问 时 间 ， 把 下 次 访问 时 间 最 远 的 页 移 走 。 换 名 话说 ， 
不 是 把 一 个 很 快 就 要 用 到 的 页 移 走 ， 而 是 选择 一 个 很 长 时 间 都 不 会 用 到 的 页 。 

一 种 很 流行 的 称 为 最 近 最 少 使 用 ( Least Recently Used, LRU) 的 算法 把 最 近 最 少 使 用 的 
页 移 走 因为 它们 不 在 工作 集中 的 概率 很 大 。 
虽然 通常 情况 下 LRU 算法 工作 得 很 好 ,但 
是 当 遇 到 与 下 面 这 个 例子 一 样 的 病态 情况 
AY, LRU 算法 将 会 失败 。 

设想 在 一 台 只 有 8 页 物理 内 存 的 计算 
机 上 运行 一 段 程序 ， 该 程序 执行 一 段 跨越 
9 个 虚 存 页 的 大 的 循环 语句 。 程 序 获得 第 7 页 
之 后 的 内 存 情 况 如 图 6-6a 所 示 。 不 可 避免 
地 ，CPU 需要 从 虚 页 8 取 指 ， 这 将 导致 缺 
页 。 下面 需要 决定 把 哪 一 页 移 走 。LRU 算 
法 将 选择 虚 页 0， 因 为 它 是 最 近 最 少 使 用 





b) 
图 6-6 LRU 算法 失效 的 例子 


的 。 这 样 ， 虚 页 0 被 移 走 而 虚 页 8 被 调和 人 到 它 的 位 置 ， 如 图 6-6b 所 示 。 
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执行 完 虚 页 8 的 指令 之 后 ， 程 序 将 跳 转 回 循环 顶部 的 虚 页 0。 这 会 产生 另 一 次 缺 页 。 刚 
刚 被 移 走 的 虚 页 0 又 将 被 重新 调 人 。LRU 算法 选择 把 页 1 调 走 ， 如 图 6-6c 所 示 。 程 序 在 页 
0 上 执行 一 段 时 间 之 后 ， 又 需要 取 虚 页 1 的 指令 ， 又 产生 缺 页。 页 1 被 再 次 调 人 人， 页 2 将 被 
调 出 。 

现在 我 们 可 以 很 清楚 地 看 出 ，LRU 算法 每 次 都 作出 了 最 差 的 选择 (在 类 似 的 条 件 下 其 他 
的 算法 也 会 失败 )。 但是， 如 果 可 用 的 内 存 大 于 工作 和 集 的 大 小 ， 那 么 LRU 算法 具有 使 缺 页 次 
数 达 到 最 小 的 趋势 。 

另 一 种 页 置换 算法 是 先进 先 出 ( First-In First-Out，FIFO ) FIFO 移 走 最 早 调 人 内 存 的 页 ， 
和 该 页 的 最 近 访 问 时 间 无 关 。 每 个 页 都 有 一 个 相连 的 计数 器 。 初 始 化 时 ， 每 个 计数 器 都 被 设 
置 为 0。 当 一 个 缺 页 处 理 之 后 ， 当 前 内 存 中 每 一 页 对 应 的 计数 器 都 加 1， 刚 被 调和 人 的 页 的 计 
数 器 则 设置 为 0。 当 需 要 选择 页 调 出 时 ， 就 选择 计数 器 最 大 的 页 。 由 于 计数 器 值 最 大 ， 因 此 
该 页 已 经 目击 了 次 数 最 多 的 缺 页 。 这 意味 着 它 是 在 内 存 中 所 有 其 他 页 之 前 调和 人 内 存 的 ， 因 此 
(希望 如 此 ) 它 不 再 被 使 用 的 可 能 性 很 大 。 

如 果 工 作 集 大 于 可 用 页 数 ， 没 有 一 个 算法 能 给 出 好 的 结果 ， 缺 页 会 频繁 发 生 。 一 个 频繁 
而 连续 产生 缺 页 的 程序 称 为 系统 颠 敏 (thrashing), AW, 你 肯定 不 希望 在 你 的 系统 中 发 生 
颠 复 。 如 果 一 个 使 用 大 量 虚拟 地 址 空间 的 程序 有 一 个 小 的 、 变 化 不 大 的 、 和 可 用 内 存 大 小 相 
适应 的 工作 和 集 ， 它 带 来 的 麻烦 就 会 小 得 多 。 即 使 在 程序 的 整个 生命 期 中 使 用 的 虚拟 内 存 字 的 
数量 是 物理 内 存 字 数量 的 数 百 倍 也 不 会 有 什么 问题 。 

如 果 一 个 将 要 移 走 的 页 从 它 被 读 人 以 来 就 没有 被 修改 过 (如 果 该 页 包含 的 是 程序 而 不 是 
数据 ， 那 么 情况 通常 是 这 样 )， 那 么 就 不 需要 把 它 写 回 磁 盘 ， 因 为 磁盘 上 已 经 有 了 一 个 正确 的 
拷贝 。 如 果 被 修改 过 ， 那 么 磁盘 上 的 拷贝 就 不 再 正确 了 ， 该 页 就 必须 被 重新 写 回 磁盘 。 

如 果 有 办 法 知道 某 页 是 否 从 调和 人 以 来 就 没有 发 生 过 变化 (干净 页 ) 或 者 是 否 被 写 过 ( 脏 
页 )， 就 可 以 避免 回 写 所 有 的 干净 页 ， 这 样 可 以 节约 大 量 的 时 间 。 许 多 计算 机 的 MMU 每 页 都 
有 一 位 ， 当 页 调和 时 设置 为 0， 当 页 被 写 和 时 (也 就 是 说 ， 变 脏 了 ) 由 微 程序 和 硬件 把 它 设 
置 为 1。 通 过 检查 该 位 ， 操 作 系 统 就 可 以 知道 页 是 干净 的 还 是 脏 的 ， 从 而 可 以 决定 是 否 回 写 
该 页 。 


6.1.5 ”页 大 小 和 碎片 


如 果 用 户 程序 和 数据 碰巧 能 够 精确 地 填 满 所 用 的 页 ， 那 么 就 不 会 浪费 任何 内 存 空间 。 但 
是 ， 如 果 它 们 不 能 精确 地 填 满 页 ， 在 最 后 一 页 上 就 会 有 一 些 无 用 的 空间 。 举 例 来 说 ， 如 果 
程序 和 数据 需要 26 000 个 字 节 而 计算 机 的 页 大 小 是 4096 个 字 节 ， 那 么 前 6 页 是 满 的， 共有 
6 x 4096=24 576 个 字 节 ， 最 后 一 页 则 只 有 26 000-24 576=1424 个 字 节 。 因 为 每 页 可 以 放 4096 个 
字 节 ， 因 此 浪费 了 2672 个 字 节 。 当 第 7 页 在 内 存 中 时 ， 这 些 字 节 就 将 占用 内 存 空间 而 且 不 能 
用 于 其 他 目的 。 这 些 浪费 的 字 节 称 为 内 部 碎片 〈internal fragmentation ) ( 因为 浪费 的 空间 位 于 
页 内 部 )。 

如 果 页 大 小 是 n 个 字 节 ， 那 么 由 于 内 部 碎片 造成 的 程序 最 后 一 页 的 空间 浪费 的 平均 值 是 
n/2 个 字 节 ， 在 这 种 情况 下 ， 为 了 减少 浪费 ,我 们 应 该 建议 使 用 小 的 页 。 但 另 一 方面 ， 小 的 页 
意味 着 需要 更 多 的 页 ， 也 就 需要 更 大 的 页 表 。 如 果 页 表 是 由 硬件 管理 的 ， 大 的 页 表 就 需要 更 
多 的 寄存 器 来 存储 ， 这 增加 了 计算 机 的 造价 。 另 外 ， 当 程序 启动 或 者 停止 时 ， 和 需要 更 多 的 时 
间 来 存 取 寄 存 器 。 
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此 外 ， 小 页 浪费 磁盘 带宽 。 举 一 个 磁盘 的 例子 ， 该 磁盘 在 数据 传送 开始 之 前 ( 寻 道 + 旋 
转 延 时 ) 需要 等 待 10 毫秒 左右 ， 这 时 大 数据 量 的 传送 比 小 数据 量 的 传送 效率 要 高 。 使 用 每 秒 
10MB 的 传送 速率 ,传送 8KB 和 1KB 相 比 只 需要 多 花 0.7 毫秒 。 

但 是 ， 如 果 工 作 集 是 由 虚拟 地 址 空间 中 大 量 小 的 、 相 互 分 离 的 区 域 组 成 的 ， 小 页 
就 有 优势 了 ， 和 大 的 页 相 比 ， 小 页 出 现 系统 颠 敏 的 可 能 性 较 小 。 举 例 来 说 ， 考 虑 一 个 
10 000 x 10 000 的 矩阵 A， 按 照 4[1, 1]、4[2, 1], AB. 1) 的 顺序 保存 ， 每 个 元 素 占 8 个 字 节 。 
这 种 纵向 排序 的 保存 方式 意味 着 第 一 行 中 的 元 素 4[1，1]、4[1，2] 之 间 将 相隔 80 000 个 字 节 。 
一 个 对 该 行 的 所 有 元 素 进 行 运算 的 程序 将 使 用 10 000 个 区 域 ， 每 个 和 下 一 个 相隔 79 992 个 字 
节 。 如 果 页 大 小 是 SKB, 一 共和 需要 80MB 的 空间 来 存储 所 有 用 到 的 页 。 

反之 ， 如 果 页 大 小 是 1KB， 我 们 只 需要 10MB 的 RAM 就 可 以 保存 所 有 的 页 。 如 果 可 用 
内 存 是 32MB ， 使 用 8KB 的 页 程序 就 会 出 现 颠 艇 ， 而 使 用 1KB RAS RAR. RAS 
虑 ， 还 是 倾向 于 大 的 页 。 实 际 上 ， 目 前 最 小 的 页 也 有 4KB。 


6.1.6 分 段 


上 面 讨论 的 虚拟 内 存 是 一 维 的 ， 因 为 虚拟 地 址 从 0 开始 ， 一 个 地 址 接着 一 个 地 址 直到 最 
大 值 。 在 许多 问题 中 ， 使 用 两 个 或 者 更 多 个 独立 的 虚拟 地 址 空间 可 能 比 只 用 一 个 要 好 得 多 。 
举 个 例子 ， 编 译 器 在 编译 过 程 中 要 用 到 许多 张 表 ， 包 括 : 

1) 符号 表 ， 包 括 变量 名 和 变量 属性 。 

2 ) 用 于 打印 程序 清单 的 源 程序 文本 。 

3 ) 包含 所 有 用 到 的 整数 和 浮 点 数 常量 的 表 。 

4 ) 语法 分 析 树 ， 包 含 程序 的 静态 分 析 。 

5 ) 编译 器 内 部 使 用 的 用 于 过 程 调用 的 栈 。 

随 着 编译 过 程 的 进行 ， 前 4 张 表 会 不 断 增 大 ， 而 最 后 一 张 表 是 不 确定 的 ， 它 既 可 能 增 大 也 
可 能 缩小 。 在 一 维 的 内 存 中 ， 分 配给 这 5 张 表 使 用 EENEN 
的 将 是 虚拟 地 址 空间 中 的 相 邻 块 ， 如 图 6-7 所 示 。 

想 一 想 如 果 一 个 程序 使 用 了 非常 多 的 变量 会 
出 现 什 么 情况 。 分 配给 符号 表 使 用 的 地 址 空间 块 
将 被 充满 ， 即 使 别 的 表 中 还 有 大 量 的 空间 也 无 济 
于 事 。 当 然 ， 这 时 编译 器 可 以 只 是 简单 地 打印 一 
条 消息 说 因为 使 用 了 太 多 的 变量 导致 编译 过 程 不 
能 继续 ， 但 是 这 样 做 似乎 不 太 合 理 ， 因 为 在 其 他 
表 中 还 有 一 些 未 用 的 空间 。 

另 一 个 可 能 的 解决 方案 是 让 编译 器 扮演 罗 宾 
汉 的 角色 ， 从 空间 很 富余 的 表 中 取 一 些 空间 给 那 
些 没有 空间 的 表 。 虽然 这 样 做 是 可 以 的 ， 但 是 它 


分 配给 调用 栈 
的 地 址 空间 





图 6-7 一 维 地 址 空间 中 使 用 会 动 


类 似 于 让 你 自己 来 管理 覆盖 过 程 一 -这 是 一 件 最 

态 增长 的 同一 A 
麻烦 的 事情 ， 非常 单调 乏味 ， 是 最 不 值得 做 的 一 ae A 
项 工作 。 


我 们 实际 需要 的 是 一 种 能 够 把 程序 员 从 管理 表 的 增 大 和 减 小 这 样 的 工作 中 解放 出 来 的 方 
法 ， 就 像 使 用 了 虚拟 内 存 后 我 们 就 不 用 担心 如 何 组 织 程序 的 覆盖 了 一 样 。 


一 个 很 直观 的 解决 方案 是 提供 多 个 完全 独立 的 地 址 空间 ， 我 们 把 它 称 为 段 (segment). 
每 个 段 都 是 一 个 从 0 到 某 个 最 大 值 的 线性 地 址 序列 。 段 的 长 度 可 以 是 从 0 到 允许 的 最 大 值 之 
间 的 任意 值 。 不 同 的 段 可 以 (而 且 通 常 ) 有 不 同 的 长 度 。 而 且 在 执行 时 可 以 改变 段 的 长 度 。 
在 任何 时 候 执行 人 栈 操作 时 我 们 都 可 以 增 大 栈 段 ， 同 样 任何 时 候 执行 出 栈 操作 时 我 们 都 可 以 
减 小 栈 段 。 

因为 每 个 段 都 由 不 同 的 地 址 空间 组 成 ， 因 此 不 同 的 段 可 以 独立 地 增 大 和 缩小 ， 相 互 之 间 
没有 任何 影响 。 如 果 某 个 段 中 的 栈 需 要 更 多 的 地 址 空间 ， 它 肯定 会 得 到 ， 因 为 在 它 的 地 址 空 
间 中 没有 任何 别 的 东西 。 当 然 ， 段 也 可 能 被 填 满 ， 但 是 一 般 来 说 段 非常 大 ， 因 此 这 种 情况 很 
少 出 现 。 为 了 定义 段 式 内存 (或 者 称 为 两 维 内 存 ) 的 地 址 ， 程 序 必须 把 地 址 分 成 两 部 分 : Be 
号 和 段 内 地 址 。 图 6-8 是 用 于 刚才 讨论 的 编译 器 表 的 段 式 内 存 。 
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符号 表 
8K 
iE 源 程序 puke 调用 栈 
0 
段 0 段 1 段 2 段 3 段 4 


图 6-8 段 式 内 存 可 以 允许 每 张 表 独 立地 增 大 和 减 小 


要 强调 的 一 点 是 : 段 是 逻辑 实体 ， 程 序 员 必须 注意 这 一 点 ， 在 使 用 段 时 把 它 当 作 一 个 单 
独 的 逻辑 实体 。 一 个 段 可 以 包括 过 程 、 数 组 、 栈 或 者 一 组 标号 变量 ， 但 是 一 般 来 说 ， 段 不 会 
包括 多 种 不 同类 型 的 数据 。 

段 式 内 存 除了 可 以 方便 我 们 管理 动态 变化 的 数据 结构 之 外 ， 还 有 其 他 的 优点 。 如 果 每 个 
过 程 都 使 用 一 个 单独 的 段 ， 用 0 地 址 作为 起 始 地 址 ,那么 分 别 编译 的 过 程 的 链接 就 相当 简单 
了 。 当 一 个 程序 的 所 有 过 程 都 编译 并 链接 之 后 ， 调 用 位 于 段 n 的 过 程 时 只 要 使 用 两 部 分 地 址 
(n, 0) 来 寻 址 字 0 (入 口 点 )。 

如 果 后 来 修改 并 重新 编译 了 位 于 段 n 的 过 程 ， 其 他 的 过 程 并 不 需要 修改 ( 因为 它们 的 
起 始 地 址 并 没有 改变 )， 即 使 新 程序 比 原来 的 程序 大 也 是 如 此 。 在 一 维 内 存 中 ,过程 之 间 一 
个 挨 一 个 紧 紧 地 靠 在 一 起 ， 相 互 之 间 没 有 留 下 任何 地 址 空间 。 因 此 ， 改 变 一 个 过 程 的 大 小 
将 影响 到 其 他 无 关 过 程 的 起 始 地 址 。 接 下 来 ， 为 了 和 改动 了 的 过 程 的 新 的 起 始 地 址 相 适应 ， 
还 需要 修改 所 有 调用 它们 的 过 程 。 如 果 一 个 程序 包括 数 百 个 过 程 ， 这 一 处 理 过 程 的 代价 将 
相当 大 。 

分 段 还 便于 在 不 同 的 程序 之 间 共 享 过 程 或 者 数据 。 如 果 一 台 计 算 机 有 多 个 程序 并 行 运行 
(或 者 是 真正 地 运行 ,或 者 是 模拟 并 行进 程 )， 则 它们 都 使 用 某 个 库 函 数 ， 如 果 给 每 个 进程 都 
提供 一 个 库 函 数 的 私 用 拷贝 ， 对 内 存 来 说 是 一 种 浪费 。 通 过 给 每 个 过 程 分 配 一 个 单独 的 段 ， 
它们 可 以 很 容易 地 被 共享 ， 这 样 就 不 需要 在 内 存 中 为 共享 过 程 放置 多 个 物理 拷贝 。 这 样 可 以 
节省 内 存 空 间 。 

程序 员 必须 注意 每 个 段 都 是 一 个 逻辑 实体 ， 比 如 说 是 一 个 过 程 ， 或 者 是 一 个 数组 ， 或 者 
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是 一 个 ， 可 以 给 不 同 的 段 加 以 不 同 的 保护 。 一 个 过 程 段 可 以 定义 成 只 允许 运行 ， 不 人 允许 读 或 
者 写 。 一 个 浮 点 数组 段 可 以 定义 为 只 能 读 写 不 能 执行 ， 而 且 任何 跳 转 到 该 段 的 动作 都 会 被 捕 
获 。 这 样 的 保护 常常 有 助 于 我 们 发 现 编程 中 的 错误 。 

你 应 该 努力 理解 为 什么 把 保护 机 制 用 于 段 式 内 存 而 不 用 于 一 维 的 〈《 也 就 是 线性 的 ) 页 式 
内 存 。 在 段 式 内 存 中 ,用 户 必须 关心 每 段 的 内 容 。 一 般 来 说 ， 段 不 会 同时 包括 一 个 过 程 和 一 
个 栈 ， 但 是 它 可 以 包括 其 中 的 一 个 。 因 为 每 个 段 都 只 包括 一 种 类 型 的 对 象 ， 我 们 可 以 针对 这 
种 特定 的 类 型 对 段 实 施 保护 。 分 页 和 分 段 的 比较 如 图 6-9 所 示 。 
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为 什么 发 明 这 样 的 技术 为 了 模拟 大 内 存 为 了 提供 多 个 地 址 空间 
图 6-9 ”分 页 和 分 段 的 比较 


而 从 某 种 意义 上 说 ， 页 的 内 容 是 随机 的 。 程 序 员 不 用 关心 分 页 时 到 底 发 生 了 什么 。 尽 管 
在 页 表 的 表 项 中 放置 一 些 位 来 定义 允许 的 访问 地 址 也 是 可 行 的 ， 但 是 为 了 利用 这 一 特性 ， 程 
序 员 必须 了 解 地 址 空间 中 页 的 边界 在 哪里 。 这 一 方法 的 问题 就 在 这 里 ， 因 为 程序 员 要 做 的 工 
作 正 是 分 页 管理 要 努力 避免 的 。 由 于 段 式 内 存 的 用 户 可 以 认为 所 有 的 段 都 永远 在 内 存 中 ， 寻 
址 时 不 用 关心 覆盖 的 管理 工作 。 


6.1.7 ”分 段 的 实现 


分 段 可 以 用 两 种 方式 实现 : 交换 和 分 页 。 在 前 一 种 方式 中 ， 在 任意 时 刻 只 有 某 些 段 在 内 
存 中 。 如 果 引 用 了 一 个 当前 并 不 在 内 存 中 的 段 ， 将 把 此 段 调和 内存 。 如 果 内 存 中 没有 空间 ， 
就 先 把 一 个 或 者 更 多 的 段 写 回 磁盘 ( 除非 磁盘 上 已 经 有 了 一 个 干净 的 拷贝 ， 这 时 可 以 不 执行 
内 存 拷贝 )。 从 某 种 意义 上 说 ， 段 交换 和 请 求 调 页 很 相似 : 根据 需要 把 段 调 人 和 调 出 。 

但 是 ， 分 段 的 实现 和 分 页 有 本 质 的 不 同 : 页 的 大 小 是 固定 的 而 段 则 不 是 这 样 。 图 6-10a 
是 物理 内 存 包括 5 个 段 的 例子 。 现 在 考虑 一 下 如 果 把 段 1 移 走 把 另 一 个 比较 小 的 段 ， 段 7 放 
在 它 的 位 置 上 会 发 生 什么 情况 。 这 时 内 存 情况 如 图 6-10b 所 示 。 在 段 7 MB 2 之 间 是 一 块 无 
用 空间 一 一 也 就 是 一 块 碎片 。 然 后 ， 段 4 被 段 5 代替 ， 如 图 6-10c Ara, HEP HR, 段 3 被 段 6 
代替 ， 如 图 6-10d 所 示 。 当 系统 运行 一 段 时 间 之 后 ， 内 存 将 被 分 成 许多 块 ， 一 些 是 段 而 另 一 
些 是 碎片 。 这 种 现象 称 为 外 部 碎片 〈 external fragmentation ) ( 因为 空间 浪费 在 段 的 外 部 ， 在 段 
之 间 的 碎片 里 )。 有 时 外 部 碎片 也 称 为 棋盘 碎片 ( checkerboarding )。 

考虑 一 下 ， 当 图 6-10d 中 内 存 正在 忍受 外 部 碎片 的 折磨 时 程序 需要 引用 段 3 将 发 生 什么 。 
整个 碎片 的 空间 是 10K， 比 段 3 要 大 ， 但 是 因为 这 部 分 空间 被 分 成 了 多 个 小 的 无 法 利用 的 碎 
片 ， 段 3 就 不 能 被 调 入 。 必 须 首先 把 另 一 个 段 调 出 内 存 。 

下 面 是 一 种 避免 外 部 碎片 的 方法 : 每 当 出 现 碎片 时 ， 把 碎片 后 面 的 段 向 内 存 地 址 0 的 方 
向 移动 ， 这 样 可 以 减少 碎片 的 数量 最 后 留 下 一 块 大 碎片 。 我 们 也 可 以 等 到 外 部 碎片 变 得 相当 
严重 时 ( 比如 说 ， 浪 费 在 碎片 中 的 内 存 数量 超过 了 某 个 百分比 ) 再 执行 这 一 紧缩 操作 (把 碎 
片 往 上 移 )。 图 6-10e 是 图 6-10d 的 内 存 紧缩 后 的 情况 。 内 存 紧缩 的 目的 是 把 所 有 小 得 无 法 利 
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用 的 碎片 组 合成 一 个 大 的 碎片 ， 这 样 可 以 放 一 个 或 多 个 段 。 紧 缩 操作 明显 的 缺陷 是 浪费 时 间 。 
每 次 出 现 一 个 碎片 后 执行 紧缩 会 浪费 很 多 时 间 。 





a) 外 部 碎片 的 b) 外 部 碎片 的 c) 外 部 碎片 的 d) 外 部 碎片 的 e) 通过 紧缩 去 除 
形成 过 程 形成 过 程 形成 过 程 形成 过 程 外 部 碎片 
图 6-10 


如 果 执 行 紧缩 所 需要 的 时 间 太 多 以 至 于 不 可 接受 ， 我 们 就 需要 一 种 能 够 把 碎片 分 配给 特 
定 段 的 算法 。 碎 片 管理 需要 维护 一 张 包括 所 有 碎片 的 地 址 和 大 小 的 表 。 最 佳 匹 配 (bestfit ) 是 
一 种 流行 的 算法 ， 它 选择 能 够 装 下 该 段 的 最 小 碎片 。 其 思想 是 尽量 匹配 碎片 和 段 以 避免 分 割 
大 的 碎片 ， 这 样 可 以 保留 大 的 碎片 用 于 以 后 分 配给 大 的 段 。 

另 一 种 流行 的 算法 称 为 最 先 匹配 (first fit )， 该 算法 扫描 碎片 表 并 选择 第 一 个 足够 该 段 使 
用 的 碎片 。 很 显然 ， 这 样 做 和 最 佳 匹 配 相 比 节 约 了 时 间 ， 因 为 它 不 需要 检查 整 张 碎片 表 。 令 
人 惊讶 的 是 ， 最 先 匹配 算法 的 平均 效率 要 高 于 最 佳 匹 配 ， 因 为 最 佳 匹 配 会 产生 大 量 很 小 的 ， 
完全 没有 用 的 碎片 ( Knuth，1997 )。 

最 先 匹 配 和 最 佳 匹配 都 具有 减少 平均 碎片 大 小 的 趋势 。 只 要 把 一 个 段 放 入 比 它 大 的 碎片 
中 ,( 几乎 每 次 都 是 这 样 ， 因 为 精确 匹配 的 情况 是 很 少 的 )， 碎片 就 会 被 分 成 两 部 分 。 一 部 分 
是 放 入 碎片 的 段 ， 另 一 部 分 是 新 的 碎片 。 新 的 碎片 总 是 比 原 有 的 碎片 小 。 如 果 没 有 校正 进程 
把 小 的 碎片 合并 成 大 的 碎片 ， 最 终 最 先 匹配 和 最 佳 匹 配 都 会 使 内 存 中 填 满 小 的 、 无 用 的 碎片 。 

下 面 是 一 个 校正 进程 。 当 把 一 个 段 从 内 存 中 移 走 时 ， 如 果 和 它 相 邻 的 是 碎片 而 不 是 段 ， 
那么 这 些 相 邻 的 碎片 应 该 被 合并 成 一 个 大 的 碎片 。 在 图 6-10d F, WREE 5 被 移 走 ， 那 么 两 
块 和 它 相 邻 的 碎片 和 它 本 身 的 4KB 将 会 被 合并 成 一 块 11KB 的 碎片 。 

在 本 节 开 始 部 分 ， 我 们 曾经 提 到 可 以 用 两 种 方式 来 实现 分 段 : 交换 和 分 页 。 到 目前 为 止 ， 
我 们 主要 讨论 的 是 交换 。 在 这 种 方式 中 ， 段 根据 需要 在 内 存 和 磁盘 中 来 回 地 移动 。 另 一 种 实 
现 分 页 的 方式 是 把 每 个 段 都 分 成 固定 大 小 的 页 然后 执行 请 求 调用 算法 。 在 这 种 方式 中 ， 可 能 
会 出 现 一 个 段 的 某 些 页 在 内 存 中 而 另 一 些 页 在 磁盘 上 。 为 了 给 段 分 页 ， 每 个 段 都 需要 一 张 单 
独 的 页 表 。 因 为 段 具 有 线性 的 地 址 空间 ， 所 以 到 目前 为 止 我 们 讨论 过 的 所 有 关于 分 页 的 技术 
都 可 以 用 于 段 。 这 里 唯一 的 新 特性 是 每 个 段 都 有 自己 的 页 表 。 
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一 种 结合 了 分 段 和 分 页 的 早期 的 操作 系统 是 MULTICS ( MULtiplexed Information and 
Computing Service )， 它 开始 是 由 M.LT.. Bell 实验 室 和 通用 电气 公司 联合 开发 的 (Corbato 
和 Vyssotsky, 1965 ; Organick, 1972), MULTICS 的 地 址 分 为 两 部 分 : 段 号 和 段 内 地 址 。 每 
个 进程 都 有 一 个 描述 符 段 ， 描 述 符 段 的 内 容 是 该 进程 用 到 的 每 个 段 的 描述 符 。 当 硬件 收 到 一 
个 虚拟 地 址 时 ， 它 使 用 段 号 作为 索引 到 描述 符 段 中 去 寻 址 要 访问 的 段 的 描述 符 ， 如 图 6-11 所 
示 。 描 述 符 指向 一 张 页 表 ， 这 意味 着 段 可 以 按照 通常 的 方式 分 页 。 为 了 提高 性 能 ， 最 近 用 到 
的 段 / 页 组 合 被 放 在 具有 16 个 表 项 的 硬件 实现 的 相 联 存储 器 (associative memory) 中 ， 这 
样 可 以 对 它们 进行 快速 查找 。 尽 管 MULTICS 已 经 不 复 存在 ， 但 从 1965 年 开始 直到 2000 年 
8 月 30 日 最 后 的 MULTICS 系统 被 关闭 ，MULTICS 运行 了 很 长 的 时 间 。 而 且 MULTICS 的 
精神 永存 ， 从 386 开始 ，Intel CPU 中 的 虚拟 内 存 就 采用 了 和 MULTICS 很 类 似 的 模式 。 有 关 
MULTICS 的 历史 和 其 他 的 内 容 可 以 访问 www.multicians.org。 


描述 符 段 E p 
| Sh wer 
18 位 段 号 10 位 页 内 偏 移 量 


两 部 分 的 MULTICS 地 址 
图 6-11 两 部 分 的 MULTICS 地 址 转换 成 一 个 内 存 地 址 














6.1.8 Core i7 的 虚拟 内 存 


Core i7 的 虚拟 内 存 系统 非常 复杂 ， 它 支持 请 求 调 页 、 纯 分 段 和 带 分 页 的 分 段 几 种 方式 。 
Core i7 虚拟 内 存 的 核心 是 两 张 表 : 局 部 描述 符 表 (Local Descriptor Table, LDT) 和 全 局 描述 
符 表 (Global Descriptor Table，GDT )。 每 个 程序 都 有 自己 的 LDT, 而 GDT 只 有 一 张 ， 由 计 
算 机 中 所 有 的 程序 共享 。LDT 描述 每 个 程序 用 到 的 局 部 段 ， 包 括 代 码 、 数 据 、 栈 等 ， 而 GDT 
描述 系统 段 ， 包 括 操 作 系 统 本 身 。 

正如 我 们 在 第 5 章 中 所 描述 的 ， 为 了 访问 一 个 段 ， 一 个 Core i7 程序 必须 首先 把 段 选 
择 器 放 和 人 入 某 个 段 寄 存 器 中 。 在 执行 期 间 ，CS 
保存 代码 段 的 选择 器 ，DS 保存 数据 段 的 选择 ”位 数 2 2 
器 ， 等 等 。 每 个 选择 器 都 是 一 个 16 位 的 数 ， 
如 图 6-12 所 示 。 

选择 器 中 有 一 位 用 于 区 分 该 段 是 局 部 的 FG CO. 39 
还 是 全 局 的 ( 也 就 是 说 是 在 LDT 中 ， 还 是 在 图 6-12 Core i7 的 选择 器 





PE AAE 327 





GDT 中 )。 有 13 位 用 于 定义 LDT 或 者 GDT 的 表 项 号 ， 这 同时 也 限制 了 它们 最 多 只 能 保存 
8KB (22) 个 段 描述 符 。 其 他 两 位 和 保护 有 关 ， 我 们 将 在 后 面 讨论 。 描 述 符 0 是 没有 意义 的 ， 
如 果 使 用 描述 符 0 将 会 产生 一 个 陷阱 。 可 以 安全 地 把 描述 符 0 存 人 一 个 段 寄存 器 以 表示 该 段 
寄存 器 当前 不 可 用 ， 如 果 使 用 将 会 产生 陷阱 。 

当 把 选择 器 存 人 段 寄存 器 时 ， 从 LDT 和 GDT 中 取出 相应 的 描述 符 并 存 人 MMU 的 内 部 
寄存 器 中 ， 这 样 就 可 以 对 它 进 行 快速 访问 。 描 述 符 由 8 个 字 节 组 成 ， 包 括 段 的 基地 址 、 大 小 
和 其 他 信息 ， 如 图 6-13 所 示 。 





32 位 一 >” 地 址 











ro o 
rss [ololo] Jumm e ho re rv Te 





0: LIMIT 在 字 节 中 段 类 型 和 保护 

1: LIMIT 在 页 中 优先 级 -C0=3) 
0: 16 位 段 0: 段 不 在 内 存 中 
Le Saepe 1: 段 在 内 存 中 


图 6-13 Core i7 的 代码 段 描述 符 。 数 据 段 与 之 稍微 有 些 不 同 


很 明显 ， 选 择 这 样 的 选择 器 格式 是 为 了 易于 寻找 描述 符 。 首 先 根据 选择 器 的 第 二 位 选择 

LDT 或 者 GDT。 然 后 把 选择 器 拷贝 到 MMEU 的 临时 寄存 器 中 ， 同 时 把 低 端的 3 位 置 成 0， 相 
当 于 把 13 位 的 选择 器 号 乘 以 8。 最后， 把 保存 在 MMU 内 部 寄存 只 中 的 LDT 或 者 GDT 的 地 
址 加 上 去 ， 得 到 直接 指向 描述 符 的 指针 。 人 例如， 选择 器 72 指向 GDT 的 第 9 项， 它 的 地 址 是 
GDT+72. . 
让 我 们 看 一 看 ( 选择 器 ， 偏 移 量 ) 是 如 何 一 步 一 步 转 换 成 物理 地 址 的 。 只 要 硬件 知道 使 
用 的 是 哪 一 个 段 寄 存 器 ， 它 就 可 以 在 内 部 寄存 器 中 找到 对 应 于 该 选择 器 的 完整 的 描述 符 。 如 
果 段 不 存在 (选择 器 是 0 )， 或 者 现在 不 在 内 存 中 (了 是 0 )， 则 会 产生 一 个 陷阱 。 前 一 种 情况 
是 编程 错误 ; 而 后 一 种 情况 则 需要 操作 系统 去 取 该 页 。 

接 下 来 检查 偏 移 量 是 否 越过 了 有 段 的 边界 ， 如 果 发 生 这 种 情况 也 会 产生 陷阱 。 从 逻辑 上 
说 ， 可 以 在 描述 符 中 使 用 一 个 32 位 的 域 来 给 出 段 的 大 小 ,但 是 由 于 这 里 只 有 20 位 可 用 ， 因 
此 需要 使 用 一 种 不 同 的 方法 。 如 果 G ( Granularity ) 域 是 0，LIMIT 域 就 是 确切 的 段 大 小 ， 上 
限 是 1MB。 如 果 G 域 是 1，LIMIT 域 就 
使 用 页 数 给 出 段 的 大 小 而 不 是 字 节 数 。 
由 于 Core i7 的 页 大 小 肯定 不 会 小 于 
4KB， 因 此 20 位 的 LIMIT 域 足够 使 段 
达到 2” 字 节 。 

假定 段 在 内 存 中 而 且 偏 移 量 在 范围 
之 内 ，Core i7 就 把 描述 符 中 的 32 位 的 
BASE 域 加 到 偏 移 量 上 形成 所 谓 的 线性 
地 址 (linear address )， 如 图 6-14 所 示 。 
BASE 域 被 分 成 三 部 分 而 且 散 布 在 描述 
符 中 是 为 了 和 80286 FRA, FE 80286 中 描述 符 只 有 24 位 。 实 际 上 ，BASE HEEM 32 位 


选择 器 





32 位 线性 地 址 


图 6-14 把 (selector, offset) 转换 成 线性 地 址 
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线性 地 址 空间 中 的 任意 位 置 开 始 。 

如 果 不 使 用 分 页 (通过 全 局 控制 寄存 器 中 的 1 位 来 表示 )， 此 线性 地 址 就 作为 物理 地 址 被 
送 到 内 存 中 去 进行 读 写 。 因 此 如 果 不 使 用 分 页 ， 我 们 使 用 的 就 是 纯 分 段 方式 ， 每 个 段 的 基地 
址 都 由 描述 符 给 出 。 段 允许 覆盖 ， 顺 便 说 一 句 ， 这 可 能 是 因为 它 太 麻烦 了 而 且 需 要 花费 太 多 
的 时 间 去 验证 它 是 否 处 于 混乱 状态 。 

相反 ,如果 使 用 分 页 ,线性 地 址 就 被 解释 成 虚拟 地 址 ， 然 后 使 用 页 表 映 射 到 物理 地 址 ， 
就 像 前 面 的 例子 一 样 。 唯 一 的 复杂 性 在 于 使 用 32 位 的 虚拟 地 址 和 4KB 的 页 ， 段 可 能 会 包括 
一 百 万 个 页 ， 因 此 需要 使 用 两 级 的 映射 来 减 小 用 于 小 段 的 页 表 的 大 小 。 

每 个 运行 程序 都 有 一 个 由 1024 个 32 位 的 项 组 成 的 页 目录 (page directory )。 它 的 地 址 保 
存在 一 个 全 局 寄存 器 中 。 此 目录 中 的 每 一 项 都 指向 同样 包括 1024 个 32 位 项 的 页 表 ， 页 表 项 
指向 页 ， 这 种 方式 如 图 6-15 所 示 。 


位 数 10 ee 12 
a) 
页 目录 页 表 页 帧 


选中 的 字 
PAGE 


b) 
图 6-15 线性 地 址 映射 到 物理 地 址 


从 图 6-15a 中 ,我们 看 到 一 个 线性 地 址 被 分 成 三 个 字段 DIR, PAGE 和 OFF。 首 先 使 
用 DIR 字段 作为 页 目录 的 索引 找 出 指向 合适 的 页 表 的 指针 。 然 后 使 用 PAGE 字段 作为 页 表 
的 索引 找 出 页 的 物理 地 址 。 最 后 把 OFF 加 到 页 的 地 址 上 来 获得 要 寻 址 的 字 或 者 字 节 的 物理 
地 址 。 

每 个 页 表 项 为 32 位 长 ， 其 中 20 位 是 页 号 。 剩 余 的 位 包括 访问 位 和 脏 位 ， 为 了 操作 系统 
实现 方便 ， 这 些 位 由 硬件 设置 ， 另 外 还 有 保护 位 和 用 于 其 他 用 途 的 位 。 

每 张 页 表 可 以 指向 1024 个 4KB 的 页 ， 因 此 一 张 页 表 可 以 管理 4MB 的 内 存 。 一 个 短 于 
4M 的 段 的 页 目录 只 有 一 项 ， 就 是 指向 它 的 唯一 一 张 页 表 的 指针 。 使 用 这 种 方式 ， 短 的 段 的 负 
载 只 有 两 页 ， 而 不 是 在 一 级 页 表 方 式 中 要 用 到 的 百 万 页 。 

为 了 便于 对 相同 的 内 存 地 址 进行 重复 的 访问 ，Core i7 的 MMU 使 用 特殊 的 硬件 支持 对 最 
近 用 到 的 DIR-PAGE 组 合 进行 快速 查找 并 把 它们 映射 到 相应 页 的 物理 地 址 上 。 只 有 在 当前 的 
组 合 最 近 没 有 被 使 用 时 ， 才 会 执行 图 6-15 中 的 步骤 。 

稍微 观察 一 下 就 会 发 现 ， 当 使 用 分 页 时 ， 确 实 不 需要 在 描述 符 中 使 用 非 0 的 BASE 域 。 
BASE 域 的 作用 是 在 页 目录 中 ( 而 不 是 起 始 处 ) 产生 一 个 偏 移 量 。 包 括 BASE 域 的 实际 原因 
只 不 过 是 为 了 允许 内 存 采 用 纯 分 段 式 管理 (不 分 页 )， 以 及 和 老 的 80286 向 下 兼容 ,在 80286 
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中 不 使 用 分 页 。 

另外 值得 注意 的 一 点 是 ， 当 一 个 特殊 的 应 用 确实 不 需要 分 段 但 又 需要 一 个 单一 的 分 页 
的 32 位 地 址 空间 时 ， 也 可 以 很 容易 实现 。 可 以 用 同一 个 选择 器 来 设置 所 有 的 段 寄存 器 ， 它 
的 描述 符 中 BASE=0，LIMIT 设 为 最 大 值 。 然 后 把 指令 的 偏 移 量 作为 线性 地 址 ， 这 样 就 可 
以 得 到 一 个 单一 的 地 址 空间 ( 实际 上 就 是 传统 的 er 
分 页 )。 SH 可 能 的 用 途 

我 们 现在 已 经 结束 了 对 Core i7 虚拟 内 存 的 
讨论 。 实 际 上 我 们 只 是 讨论 了 Core i7 虚拟 内 存 
系统 经 常用 到 的 一 小 部 分 内 容 。 感 兴趣 的 读者 可 
以 查阅 Core i7 的 文档 继续 了 解 64 位 虚 地 址 扩展 
以 及 对 虚拟 化 物理 地 址 空间 的 支持 等 。 在 结束 这 
个 主题 的 讨论 之 前 ， 关 于 保护 我 们 还 需要 再 补充 
几 句 ， 因 为 它 和 虚拟 内 存 密 切 相 关 。Core i7 支持 
4 个 保护 级 别 ， 级 别 0 的 特权 最 大 而 级 别 3 最 小 ， 
如 图 6-16 所 示 。 一 个 运行 程序 在 任 一 时 刻 都 处 于 S gay 
某 一 特定 的 级 别 ， 用 程序 状态 字 (PSW) 中 的 一 图 6-16 Core i7 中 的 保护 级 别 
个 2 位 的 字段 表示 ，PSW 是 一 个 保存 条 件 码 和 其 
他 状态 位 的 硬件 寄存 器 。 此 外 ， 系 统 中 的 每 个 段 也 都 属于 某 个 特定 的 级 别 。 

只 要 程序 限制 它 自己 只 能 使 用 相同 级 别 的 段 ， 所 有 的 工作 都 可 以 完成 得 很 好 。 访 问 级 别 
较 高 的 数据 是 允许 的 。 访 问 级 别 较 低 的 数据 则 是 不 允许 的 并 会 产生 陷阱 。 调 用 位 于 不 同 级 别 
的 过 程 (高 或 者 低 ) 也 是 允许 的 ,但 是 调用 过 程 需要 相当 仔细。 为 了 执行 一 个 跨 级 别 的 调用 ， 
CALL 指令 必须 获得 一 个 选择 器 而 不 是 地 址 。 选 择 器 指向 称 为 调用 门 的 描述 符 ， 它 给 出 了 被 
调用 过 程 的 地 址 。 这 样 就 不 可 能 随意 跳 转 到 位 于 不 同 级 别 的 代码 段 中 ， 而 是 只 能 使 用 规定 好 
的 人 口 。 

我 们 可 以 使 用 图 6-16 中 的 方式 来 使 用 这 种 机 制 。 级 别 0 是 操作 系统 核 ， 它 负责 处 理 
IO、 内 存 管理 和 其 他 的 关键 任务 。 级 别 1 是 系统 调用 。 用 户 程 序 可 以 使 用 这 里 的 过 程 来 执 
行 系统 调用 ， 但 是 只 有 特定 的 和 受 保 护 的 过 程 才 可 以 被 调用 。 级 别 2 包括 可 以 在 多 个 应 用 程 
序 之 间 共 享 的 过 程 。 用 户 程序 可 以 调用 这 些 过 程 ， 但 是 不 能 修改 它们 。 用 户 程序 运行 在 级 
别 3， 它 的 受 保护 程度 最 低 。 和 Core i7 的 内 存 管理 机 制 一 样 ， 这 一 保护 机 制 的 思想 也 源 自 
MULTICS, 

陷阱 和 中 断 使 用 和 调用 门 相似 的 机 制 。 它 们 也 使 用 描述 符 而 不 是 绝对 地 址 ,它们 的 描 
述 符 指向 将 要 执行 的 特定 过 程 。 图 6-13 中 的 TYPE 域 区 分 了 代码 段 、 数 据 段 和 各 种 不 同 
的 门 。 


6.1.9 OMAP4430 ARM CPU 的 虚拟 内 存 





OMAP4430 ARM CPU 是 32 位 的 CPU， 它 支持 基于 32 位 虚拟 地 址 的 页 式 虚 拟 内 存 ，32 位 
的 虚拟 地 址 能 够 转化 到 32 位 的 物理 地 址 空间 。 因 此 ，ARM CPU 能 够 支持 最 多 22 个 字 节 
(4GB ) 的 物理 内 存 。 它 支持 4 种 大 小 的 页 : 4KB、64KB、1MB 和 16MB, 4 种 大 小 的 页 的 映 
射 关 系 如 图 6-17 所 示 。 
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位 20 12 16 16 12 20 10 22 
位 20 12 16 16 12 20 10 22 


图 6-17 OMAP4430 ARM CPU 中 虚拟 地 址 到 物理 地 址 的 映射 


OMAP4430 ARM CPU 使 用 和 Core i7 类 似 的 页 表 结 构 。 对 于 虚拟 地 址 页 大 小 为 4KB 的 
页 表 映 射 如 图 6-18a 所 示 。 第 1 级 描述 符 表 由 虚拟 地 址 最 高 的 12 位 进行 索引 ， 它 的 表 项 指明 
第 2 级 描述 符 表 的 物理 地 址 。 这 个 地 址 连同 接 下 来 的 8 位 虚拟 地 址 一 起 生成 页 描述 符 地 址 。 


页 描述 符 包含 了 物理 页 帧 的 地 址 以 及 有 关 访 问 页 的 权限 信息 。 
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页 表 “TLB 缺 失 情 况 下 由 MMU 访 问 ) TLB (MMU 硬 件 ) 
第 1 级 第 2 级 ASID 
页 表 索 引 页 表 索 引 偏 移 量 
标记 
à D 虚拟 页 
有 校 位 物理 页 
b) TLB 





图 6-18 OMAP4430 ARM CPU 中 虚拟 地 址 转换 用 到 的 数据 结构 


OMAP4430 ARM CPU 虚拟 内 存 映 射 适 应 4 种 页 大 小 。1MB 和 16MB 大 小 的 页 被 映射 到 
第 1 级 描述 符 表 中 的 页 描述 符 。 这 种 情况 下 不 需要 第 2 级 表 ， 因 为 全 部 表 项 能 够 指明 相同 大 
小 的 物理 页 。64KB 的 页 描述 符 位 于 第 2 级 描述 符 表 。 因 为 第 2 级 描述 符 表 的 每 个 表 项 映射 
4KB 虚拟 地 址 页 到 4KB 物理 地 址 页 ， 所 以 64KB 页 在 第 2 级 描述 符 表 中 需要 16 个 同样 的 描 
述 符 。 现 在 我 们 来 看 一 下 为 什么 心智 健全 的 操作 系统 程序 员 声 明 64KB 大 小 的 页 ， 而 不 是 使 
用 更 为 灵活 的 4KB 大 小 的 页 。 因 为 我 们 一 会 将 看 到 64KB 大 小 的 页 需要 更 少 的 TLB 表 项 ， 而 
TLB 表 项 正 是 取得 好 性 能 的 重要 资源 。 

没有 什么 比 收 紧 内 存 瓶 颈 更 能 减 慢 程序 运行 了 。 如 果 理 解 了 图 6-18, 那么 你 可 能 注意 到 
每 一 次 内 存 访问 都 需要 两 次 额外 的 内 存 访 问 进行 地 址 转换 。 内 存 访问 因 虚 拟 地 址 转换 产生 的 
200% 的 额外 开销 将 使 得 程序 运行 缓慢 。 为 了 避免 这 个 瓶颈 ，OMAP4430 ARM CPU 采用 了 
称 为 TLB ( Translation Lookaside Buffer ) 的 硬件 表 进 行 虚 页 号 到 物理 页 帧 的 快速 映射 。 对 于 
4KB 的 页 大 小 ， 有 22 个 虚 页 号 ， 超 过 了 一 百 万 个 。 显 然 ， 不 是 所 有 虚 页 号 都 能 在 TLB 进行 
映射 。 

实际 上 TLB 只 是 存放 最 近 使 用 过 的 虚 页 号 。 指 令 和 数据 页 分 开 记录 ，TLB 对 每 个 分 类 都 
保存 128 个 最 近 使 用 过 的 虚 页 号 。 每 个 TLB 表 项 保存 一 个 虚 页 号 和 对 应 的 物理 页 帧 号 。 当 -一 
个 称 作 地 址 空间 描述 符 ( Address Space IDentifier，ASID ) 的 进程 号 和 一 个 该 地 址 空间 的 虚 地 
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址 出 现在 MMU 中 时 ，MMU 立即 使 用 专门 的 电路 比较 其 中 的 虚 页 号 和 TLB 中 的 表 项 。 如 果 
匹配 上 了 ， 那 么 TLB 表 项 中 的 页 帧 号 就 和 虚拟 地 址 中 的 偏 移 量 组 合 在 一 起 形成 一 个 32 位 的 
物理 地 址 ， 同 时 产生 一 些 标记 ， 例 如 保护 位 等 。TLB 如 图 6-18b 所 示 。 

然而 ， 如 果 没 有 匹配 上 ， 那 么 TLB 缺失 就 发 生 了 ， 这 就 要 通知 硬件 访问 页 表 了 。 当 新 的 
物理 描述 符 表 项 在 页 表 中 时 ， 就 要 检查 页 是 否 在 内 存 中 ， 如 果 在 ， 那 么 对 应 的 地 址 转换 就 可 
以 加 载 到 TLB 中 。 如 果 页 不 在 内 存 中 ， 那 么 一 个 标准 的 缺 页 操作 就 要 启动 。 因 为 TLB 只 有 
很 少 的 表 项 ， 所 以 很 可 能 要 置换 TLB 中 已 经 存在 的 表 项 。 后 续 对 替换 出 去 的 页 的 访问 不 得 不 
重新 访问 页 表 进 而 得 到 地 址 映射 。 如 果 太 多 的 页 涉及 要 替换 TLB 表 项 ， 那么 TLB 就 没什么 
用 了 ， 因 为 绝 大 部 分 内 存 访问 都 需要 200% 的 额外 开销 来 进行 地 址 转换 。 

比较 Core i7 和 OMAP4430 ARM CPU 的 虚拟 内 存 系统 是 相当 有 趣 的 。Core i7 支持 纯 
分 段 、 纯 分 页 和 使 用 分 页 的 分 段 儿 种 机 制 。OMAP4430 ARM CPU 只 使 用 分 页 。 当 TLB 发 
生 缺 失 时 ，Core i7 和 OMAP4430 都 使 用 硬件 访问 页 表 以 重新 填写 TLB。 其 他 体系 结构 ， 如 
SPARC 和 MIPS， 当 TLB 缺失 时 只 是 将 控制 权 交 给 操作 系统 。 这 样 的 体系 结构 定义 了 专用 的 
特权 指令 来 维护 TLB, 例如， 在 必须 做 地 址 转换 时 操作 系统 能 够 进行 页 表 访 问 和 TLB 加 载 。 


6.1.10 ”虚拟 内 存 和 高 速 缓存 


虽然 乍 一 看 ,(〈 请 求 调 页 方式 的 ) 虚拟 内 存 和 高 速 缓存 没有 关系 ， 但 是 实际 上 它们 用 到 的 
思想 很 类 似 。 使 用 虚拟 内 存 时 ， 整 个 程序 保存 在 磁盘 上 并 被 分 成 固定 大 小 的 页 。 其 中 的 某 些 
页 在 内 存 中 。 如 果 程 序 用 到 的 大 部 分 页 都 在 内 存 中 ， 出 现 缺 页 的 次 数 就 会 很 少 ， 程 序 也 会 运 
行 得 比较 快 。 使 用 高 速 缓存 时 ， 整 个 程序 保存 在 内 存 中 并 被 分 成 固定 大 小 的 高 速 缓存 块 。 其 
中 的 某 些 块 位 于 高 速 缓存 中 。 如 果 程 序 用 到 的 大 部 分 块 都 在 高 速 缓存 中 ， 高 速 缓存 不 命中 的 
次 数 就 会 很 少 ， 程 序 也 会 运行 得 很 快 。 从 概念 上 来 说 ， 这 两 者 是 一 样 的 ， 只 不 过 工作 在 不 同 
的 层次 上 。 

当然 ， 虚 拟 内 存 和 高 速 缓存 之 间 也 存在 一 些 区 别 。 比 如 说 ， 高 速 缓存 缺失 由 硬件 处 理 而 
缺 页 是 由 操作 系统 处 理 的 。 另 外 ， 高 速 缓存 块 一 般 比 页 小 得 多 〈 例如 ， 高 速 缓存 块 可 能 是 64 个 
字 节 而 页 可 能 是 8KB )。 还 有 ， 虚 页 和 物理 页 之 间 的 映射 关系 也 是 不 同 的 ， 页 表 的 索引 是 按照 
虚拟 地 址 的 高 位 组 织 的 而 高 速 缓存 的 索引 是 按照 内 存 地 址 的 低位 组 织 的 。 不 过 必须 注意 ， 这 
些 只 是 它们 实现 中 的 区 别 ， 它 们 用 到 的 基本 原理 是 类 似 的 。 


6.2 硬件 虚拟 化 


习惯 上 ,硬件 体系 结构 是 按照 一 次 只 在 其 上 运行 一 个 操作 系统 的 预期 来 进行 设计 的 。 共 
享 计算 资源 的 大 量 出 现 ， 如 云 计 算 服 务 器 等 ， 能 够 受益 于 具有 同时 运行 多 个 操作 系统 的 能 力 。 
例如 ， 具 有 代表 性 的 互联 网 主机 服务 能 够 提供 给 付费 委托 方 一 个 完整 的 系统 ， 依 托 这 个 系统 
可 以 建立 Web 服务 。 如 果 每 次 新 注册 一 个 客户 就 在 服务 器 机 房 中 安装 一 台新 机 器 的 话 成 本 太 
高 了 。 上 典型 的 蔡 代 的 方案 是 主机 服务 采用 虚拟 化 (virtualization ) 技术 ， 在 一 台 服 务 器 上 支持 
多 个 完整 系统 的 运行 ,包括 操作 系统 。 只 有 当 已 有 承担 主机 服务 的 服务 器 负载 太 重 的 时 候 才 
在 服务 器 池 中 安装 一 台新 的 物理 服务 器 。 

纯 软 件 方法 实现 的 虚拟 化 早已 存在 ， 但 这 种 方法 一 般 要 减 慢 虚 拟 系统 的 速度 ， 而 且 需 要 
对 操作 系统 做 专门 的 修改 或 者 利用 复杂 的 代码 分 析 器 忙 忙碌 碌 地 重 写 程 序 。 这 些 缺 点 促使 架 
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构 师 通过 增强 体系 结构 的 操作 系统 层 来 支持 直接 在 硬件 上 高 效 虚拟 化 。 

如 图 6-19 所 示 ， 硬 件 虚 拟 化 (hardware virtualization ) 是 硬件 和 软件 支持 综合 在 一 起 ， 
在 单独 一 台 物 理 计 算 机 上 让 多 个 操作 系统 同时 执行 。 对 于 用 户 来 说 ， 每 个 运行 在 宿主 计算 机 
上 的 虚拟 机 看 起 来 就 是 一 个 完整 独立 的 计算 系统 。 监 控 管理 程序 ( hypervisor ) 是 一 个 软件 组 
件 ， 很 像 一 个 操作 系统 内 核 ， 能 够 建立 和 管理 虚拟 机 实例 。 硬 件 提供 软件 可 见 事件 ， 这 对 于 
监控 管理 程序 实现 CPU、 存 储 和 VO 设备 的 共享 策略 是 必需 的 。 





主机 H/W 体 系 结构 和 设备 


图 6-19 硬件 虚拟 化 允许 多 个 操作 系统 同时 运作 在 同一 台 主 机 硬件 上 。 
监控 管理 程序 实现 主机 内 存 和 IO 设备 的 共享 


在 一 台 宿 主 计算 机 上 运行 多 个 虚拟 机 ， 每 台 虚 拟 机 可 以 运行 不 同 的 操作 系统 ， 这 样 能 够 
带 来 很 多 好 处 。 在 服务 器 系统 中 ， 虚 拟 化 使 得 系统 管理 员 在 同一 台 物 理 服务 器 上 部 署 多 台 虚 
拟 机 ， 而 且 可 以 在 不 同 的 物理 服务 器 之 间 迁 移 运行 中 的 虚拟 机 以 实现 更 好 的 整体 负载 分 布 。 
虚拟 机 还 可 以 让 系统 管理 员 更 加 细 粒 度 的 控制 对 IO 设备 的 访问 。 例 如 ， 虚 拟 化 网 络 端口 的 
带宽 可 以 依据 用 户 的 服务 级 别 进行 划分 。 对 于 个 人 用 户 ， 虚 拟 化 提供 了 同时 运行 多 个 操作 系 
统 的 能 力 。 

为 了 在 硬件 上 实现 虚拟 化 ， 体 系 结构 中 的 所 有 指令 必须 只 能 访问 当前 虚拟 机 的 资源 。 对 
于 大 多 数 指令 ， 这 个 要 求 没 什么 问题 。 例 如 ， 算 数 指令 只 需要 访问 寄存 器 文件 ， 这 个 可 以 在 
虚拟 机 上 下 文 切 换 时 通过 拷贝 虚拟 机 的 寄存 器 到 宿主 计算 机 处 理 器 的 寄存 器 文件 来 虚拟 化 。 

虚拟 化 的 内 存 访问 指令 〔 例 如 load 和 store 等 ) 稍微 有 点 挑战 ， 因 为 这 些 指令 必须 只 能 
访问 分 配给 当前 正在 执行 的 虚拟 机 的 物理 内 存 。 一 般 来 说 ， 支 持 硬件 虚拟 化 的 处 理 器 要 提供 
额外 的 页 面 映射 措施 ， 能 够 映射 虚拟 机 物理 内 存 页 到 宿主 计算 机 物理 内 存 页 。 最 后 ，LIO 指 
令 (包括 内 存 映 射 的 IO ) 不 能 直接 访问 物理 IO 设备 ， 因 为 很 多 虚拟 化 策略 要 划分 对 IO 设 
备 的 访问 。 这 种 细 粒 度 的 IO 控制 通常 是 通过 中 断 实现 的 ， 任 何 时 候 虚 拟 机 试图 访问 VO 设备 
都 会 产生 中 汤 并 通知 监控 管理 程序 。 监 控 管理 程序 可 以 实现 它 自己 选择 的 IO 资源 访问 策略 。 
通常 ， 某 些 IO 设备 集 能 够 被 支持 ， 在 虚拟 机 上 运行 的 操作 系统 称 为 客户 操作 系统 ( guest 
operating system )， 客 户 操作 系统 可 以 使 用 这 些 被 支持 的 设备 。 


Core i7 中 的 硬件 虚拟 化 


Core i7 中 的 硬件 虚拟 化 是 通过 虚拟 机 扩展 (Virtual Machine eXtension, VMX ) 来 支持 的 ， 
VMX 是 指令 、 内 存 和 中 断 扩 展 的 综合 ， 可 以 实现 对 虚拟 机 的 有 效 管理 。 通 过 VMX， 内 存 虚 
拟 化 由 硬件 虚拟 化 支持 的 EPT ( Extended Page Table ) 系统 来 实现 。EPT 将 虚拟 机 物理 页 地 
址 转换 为 宿主 计算 机 物理 地 址 。 当 虚拟 机 发 生 TLB 缺失 时 ，EPT 采用 额外 的 多 级 页 表 结 构 实 
现 映射 。 监 控 管理 程序 维护 这 个 页 表 ， 而 且 这 种 方式 可 以 实现 各 种 期 望 的 物理 内 存 共享 策略 。 
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无 论 是 对 于 内 存 映射 的 IO 还 是 IO 指令 ，LIO 操作 的 虚拟 化 都 通过 定义 在 VMCS 
( Virtual-Machine Control Structure ) 中 的 扩展 中 断 支 持 来 实现 。 任 何 时 候 ， 只 要 虚拟 机 要 访问 
IO 设备 ， 监 控 管理 程序 中 渐 就 被 触发 。 一 旦 监控 管理 程序 接收 到 中 断 ， 它 就 在 软件 中 使 用 必 
要 的 策略 实现 IO 操作 ， 以 便 允 许 虚拟 机 之 间 共 享 VO 设备 。 


6.3 ”操作 系统 层 /O 指令 


指令 系统 层 指令 集 和 微 体系 结构 层 指令 集 是 完全 不 同 的 。 它 们 所 完成 的 功能 和 指令 格式 
都 大 不 一 样 。 当 然 ， 在 这 两 层 中 也 可 能 有 一 些 相 同 的 指令 ， 但 它们 是 次 要 的 。 

相对 而 言 ， 操 作 系统 层 指令 集 包 括 了 大 部 分 的 指令 系统 层 指 令 ， 同 时 还 增加 了 新 的 重要 
的 指令 ， 并 减少 了 一 些 具 有 潜在 的 破坏 性 的 指令 。 输 入 /输出 是 这 两 层 主要 的 不 同 之 处 之 一 。 
产生 这 种 不 同 的 原因 很 简单 : 用 户 通过 执行 真正 的 指令 系统 层 VO 指令 可 以 读 取保 存在 系统 
中 任何 地 方 的 秘密 数据 ， 还 可 以 把 它们 写 到 其 他 用 户 的 目录 中 ， 而 这 样 做 ， 既 给 用 户 自己 带 
来 麻烦 ， 又 对 系统 本 身 的 安全 性 是 一 种 威胁 。 男 外 ， 一 般 来 说 ,任何 一 个 神智 清醒 的 程序 员 
都 不 会 愿意 用 指令 系统 层 VO 指令 来 编程 ， 因 为 使 用 它们 既 复 杂 又 烦人 。 使 用 指令 系统 层 VO 
指令 首先 要 设置 某 些 设备 寄存 器 中 的 某 些 字段 或 者 某 些 位 ， 然 后 等 待 操作 完成 ， 接 下 来 再 去 
检查 ， 看 看 发 生 了 什么 。 作 为 一 个 例子 ， 下 面 列 出 了 磁盘 的 设备 寄存 器 中 出 错位 表示 的 错误 
类 型 : 

1) 磁盘 臂 不 能 正确 寻 道 ; 

2 ) 定义 为 缓冲 区 的 内 存 块 不 存在 ; 

3 ) 在 前 一 次 操作 结束 前 就 启动 新 的 磁盘 IO 操作 ; 

4) 读 计时 误差 ; 

5) 对 不 存在 的 磁盘 寻 址 ; 

6 ) 对 不 存在 的 柱 面 寻 址 ; 

7 ) 对 不 存在 的 扇 区 寻 址 ; 

8 ) 读 校 验 和 错 ; 

9) 写 操作 后 的 写 校 验 错 。 

当 这 些 错误 发 生 时 ， 设 备 寄存 器 中 的 相应 位 设置 为 1。 很 少 有 用 户 愿意 不 厌 其 烦 地 了 解 
所 有 这 些 错 误 位 和 大 量 其 他 的 状态 信息 。 


6.3.1 文件 


一 种 组 织 虚拟 IO 的 方式 是 采用 称 为 文件 的 抽象 概念 。 最 简单 的 文件 是 由 写 人 某 个 IO 
设备 的 一 系列 字 节 组 成 。 如 果 此 IO 设备 是 一 个 存储 设备 ， 比 如 磁盘 ， 那 么 该 文件 以 后 还 可 
以 被 读 出 ; 如 果 该 设备 不 是 存储 设备 〈 比如 打印 机 )， 当 然 它 就 不 能 被 读 出 了 。 一 块 磁盘 可 以 
保存 许多 个 文件 ， 每 个 文件 可 以 存放 特定 类 型 的 数据 ， 比 如 图 片 、 电 子 表格 或 者 一 本 书 某 章 
的 正文 。 不 同 的 文件 有 不 同 的 长 度 和 其 他 属性 。 文 件 是 一 种 简单 的 组 织 虚 拟 IO 的 方式 。 

正如 我 们 在 上 面 提 到 的 ， 对 于 操作 系统 来 说 ， 文 件 只 不 过 是 一 系列 的 字 节 。 任 何 更 进 一 
步 的 结构 都 由 应 用 程序 来 处 理 。 文 件 WO 通过 执行 打开 (open), E (read), A (write) 
MIKA (close) 等 系统 调用 来 实现 。 在 读 取 一 个 文件 之 前 ， 必 须 首先 把 它 打开 。 打 开 文 件 时 ， 
操作 系统 在 磁盘 上 查找 文件 并 把 访问 文件 需要 的 信息 调 人 内存 。 
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只 要 文件 被 打开 ， 它 就 可 以 被 读 取 。read 系统 调用 至 少 必须 有 下 列 参 数 : 

1 ) 指示 去 读 哪 个 被 打开 的 文件 的 指示 符 。 

2 ) 指向 存放 数据 的 内 存 缓冲 区 的 指针 。 

3 ) 要 读 的 字 节 数 。 

read 调用 把 要 读 取 的 数据 存 人 缓冲 区 。 一 般 来 说 ， 它 把 实际 读 取 的 字 节 数 作为 返回 值 ， 
它 可 能 小 于 请 求 读 取 的 字 节 数 ( 你 不 可 能 从 1000 个 字 节 长 的 文件 中 读 取 2000 个 字 节 )。 

每 个 打开 的 文件 都 有 一 个 相关 的 指向 下 一 个 要 读 取 的 字 节 的 指针 。 在 前 一 个 读 操作 读 取 
了 一 定量 的 字 节 之 后 ， 接 下 来 的 读 操 作 将 顺序 地 读 取 文件 后 面 的 数据 块 。 一 般 来 说 ， 可 以 把 
该 指针 设置 为 某 个 特定 值 ， 这 样 程序 就 可 以 随机 地 访问 文件 的 任何 部 分 。 当 程序 读 完 一 个 
件 后 ， 应 该 把 它 关 闭 ， 关 闭 操作 通知 操作 系统 不 再 使 用 该 文件 了 ， 这 样 操作 系统 就 可 以 释放 
用 于 保存 该 文件 信息 的 表 空 间 。 

大 型 机 现在 仍然 在 使 用 ( 特别 是 应 用 在 大 型 电子 商务 网 站 上 )， 其 中 一 些 大 型 机 还 在 运 
行 传统 的 操作 系统 ( 尽管 很 多 机 器 运行 Linux )。 对 于 什么 是 文件 ， 传 统 的 主机 操作 系统 使 用 
不 同 的 模型 ， 花 一 点 篇 幅 对 这 样 的 模型 做 介绍 是 值得 的 ， 这 能 使 我 们 明白 并 不 是 所 有 的 做 法 
都 和 UNIX 一 样 。 在 这 些 传 统 的 系统 中 ， 文 件 是 一 系列 逻辑 记录 ， 每 个 记录 都 是 一 个 明确 的 
结构 。 比 如 ， 一 个 逻辑 记录 可 能 是 一 个 包括 以 下 五 项 的 数据 结构 : 两 个 字符 串 ,“Name” 和 
“Supervisor”; 两 个 整数 ,，“Department” 和 “Office”; 还 有 一 个 布尔 值 ,，“SexIsFemale”。 在 
某 些 操作 系统 中 ， 具 有 相同 结构 的 文件 和 包括 不 同 的 记录 类 型 的 文件 是 被 区 别 对 待 的 。 

基本 的 虚拟 输入 指令 从 指定 的 文件 中 读 取 下 一 条 记录 并 把 它 存 人 从 指定 地 址 开始 的 内 存 
Hh, WE 6-20 所 示 。 为 了 执行 该 操作 ， 虚 拟 指令 必须 被 告知 从 哪个 文件 中 读 和 把 记录 放 到 
内 存 中 的 什么 地 方 。 通 常 有 选项 用 于 读 取 指定 记录 ， 可 以 通过 其 在 文件 中 的 位 置 来 指定 或 者 

[466] 通过 其 关键 字 来 指定 。 





a) 读 记录 19 之 前 b) 读 记录 19 之 后 
图 6-20 ” 读 取 由 逻辑 记录 组 成 的 文件 


基本 的 虚拟 输出 指令 把 一 个 逻辑 记录 从 内 存 写 入 文件 中 。 连续 的 写 指令 向 文件 中 写 人 连 
续 的 逻辑 记录 。 
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6.3.2 ”操作 系统 层 |/O 指令 的 实现 


为 了 理解 虚拟 IO 指令 是 如 何 实现 的 ， 我 们 需要 了 解 文件 是 如 何 组 织 和 存储 的 。 存 储 分 
配 是 所 有 的 文件 系统 都 需要 处 理 的 一 个 基本 问题 。 分 配 单 元 ( 有 时 也 称 为 块 )， 可 以 是 一 个 单 
独 的 磁盘 扇 区 ， 也 可 以 是 由 连续 扇 区 组 成 的 磁盘 块 。 

文件 系统 实现 的 男 一 个 基本 属性 是 是 否 把 文件 保存 在 连续 的 分 配 单元 中 。 图 6-21 是 一 块 
简单 的 单 面 磁盘 ， 它 有 5 个 磁道 ， 每 道 有 12 SK. ÆR 6-21a 中 ， 扇 区 是 基本 的 空间 分 配 
单元 ， 文 件 由 连续 的 扇 区 组 成 。 这 种 文件 块 的 连续 分 配 常 用 于 CD-ROM 中 。 在 图 6-21b 中 ， 
扇 区 是 基本 的 分 配 单 元 ， 文 件 不 需要 分 配 连续 的 扇 区 。 这 种 方式 常用 于 硬盘 ， 当 然 固 态 盘 也 
是 如 此 。 





磁盘 旋转 方向 
a) 文件 保存 在 连续 的 扇 区 中 b) 文件 保存 在 不 连续 的 扇 区 中 


图 6-21 ”磁盘 空间 分 配 策略 


从 应 用 程序 员 的 角度 看 文件 和 从 操作 系统 角度 看 文件 有 很 大 的 区 别 。 程 序 员 看 到 的 文件 
是 字 节 或 者 逻辑 记录 的 线性 序列 。 操 作 系 统 看 到 的 文件 是 磁盘 上 分 配 单元 的 有 序 的 集合 ， 并 
不 需要 连续 。 

操作 系统 为 了 能 读 取 需 要 的 某 个 文件 中 的 字 节 或 者 逻辑 记录 n， 它 必须 使 用 某 些 方 法 来 
查找 数据 。 如 果 文 件 是 连续 分 配 的 ， 操 作 系统 只 需要 知道 文件 的 起 始 位 置 就 可 以 计算 出 需要 
的 字 节 或 者 逻辑 记录 的 位 置 。 

如 果 文件 不 是 连续 分 配 的 ， 那么 单 从 文件 的 起 始 位 置 就 不 能 算出 文件 中 任意 一 个 字 节 或 
者 逻辑 记录 的 位 置 。 为 了 查找 文件 中 的 任意 字 节 或 者 逻辑 记录 ， 需 要 一 张 称 为 文件 索引 (file 
index ) HR, 文件 索引 表 中 给 出 了 分 配 单元 和 它们 实际 的 磁盘 地 址 。 文 件 索 引 表 的 组 织 方式 
既 可 以 是 一 张 由 磁盘 块 地 址 组 成 的 表 ( UNIX 使 用 这 种 方式 )， 可 以 是 一 张 连续 块 序列 组 成 的 
# (Windows 7 使 用 这 种 方式 )， 也 可 以 是 一 张 逻辑 记录 组 成 的 表 ， 每 条 记录 包括 磁盘 地 址 和 
偏 移 量 。 有 时 候 ， 每 条 逻辑 记录 有 一 个 关键 字 (key )， 程 序 可 以 通过 关键 字 而 不 是 逻辑 记录 
号 来 引用 该 记录 。 在 这 种 情况 下 ， 就 需要 后 一 种 组 织 方式 ， 这 时 每 条 记录 不 仅 包 括 它 在 磁盘 
上 的 位 置 还 包括 它 的 关键 字 。 这 种 组 织 方式 常用 于 大 型 机 。 

另 一 种 查找 文件 分 配 单元 的 方法 是 把 文件 组 织 成 一 张 链表 。 每 个 分 配 单元 都 包括 它 的 后 
继 者 的 地 址 。 这 种 方法 的 一 种 有 效 的 实现 方式 是 把 所 有 的 后 继 者 地 址 保存 在 内 存 的 一 张 表 中 。 
举例 来 说 ， 如 果 某 个 磁盘 有 64K 个 分 配 单元 ， 操 作 系统 在 内 存 中 就 使 用 一 张 有 64K 项 的 表 ， 


467 


468 


336 HOF 


每 项 都 给 出 了 后 继 的 索引 。 例 如 ， 如 果 文 件 占用 了 分 配 单元 4、52 和 19。 那 么 表 项 4 将 包括 
52， 表 项 52 包括 19， 表 项 19 将 使 用 某 个 特殊 的 代码 ( 比如 ，0 或 者 -1 ) 以 表示 文件 结束 。 
MS-DOS 、Windows 95 和 Windows 98 的 文件 系统 采用 这 种 方式 。Windows 较 新 的 版 本 (2000, 
XP, Vista 和 7 ) 也 支持 这 种 文件 系统 ， 但 是 它们 自己 还 有 一 种 更 接近 UNIX 的 文件 系统 。 

到 目前 为 止 ， 我 们 已 经 讨论 了 连续 分 配 的 文件 和 非 连续 分 配 的 文件 ， 但 是 我 们 还 没有 说 
明 为 什么 要 同时 使 用 这 两 种 方式 。 连 续 分 配 的 文件 的 块 管理 比较 简单 ， 但 是 当 预 先 不 知道 最 
大 文件 长 度 时 ， 这 种 技术 使 用 起 来 就 很 困难 。 如 果 一 个 文件 从 扇 区 7 开始 并 被 允许 使 用 连续 
扇 区 方式 来 增长 ， 那 么 它 可 能 会 碰 到 扇 区 大 的 另 一 个 文件 ， 这 样 它 就 没有 扩展 的 空间 了 。 如 
果 文 件 不 是 连续 分 配 的 ， 这 种 情况 就 没有 任何 问题 ， 因 为 后 继 的 块 可 以 被 放 在 磁盘 的 任何 地 
方 。 如 果 一 块 磁盘 包括 一 定数 量 的、 正在 增长 的 文件 ， 不 知道 其 中 任何 一 个 的 最 终 长 度 ， 那 
么 就 几乎 不 可 能 按照 连续 文件 方式 对 它们 进行 存储 。 有 时 候 可 以 通过 移动 一 个 现 有 的 文件 来 
解决 问题 ， 但 这 样 做 在 时 间 和 系统 资源 方面 代价 太 大 。 

另 一 方面 ， 如 果 预 先知 道 所 有 文件 的 长 度 ， 比 如 把 文件 写 人 CD-ROM， 这 时 写 人 程序 
可 以 预先 给 每 个 文件 分 配 和 它们 长 度 相等 的 扇 区 。 因 此 如 果 将 要 写 人 CD-ROM 的 文件 的 长 
度 分 别 是 1200、700、200 和 900 个 扇 区 ， 那 么 它们 可 以 分 别 从 扇 区 0、1200、1900 和 3900 
处 开始 ( 这 里 忽略 了 目录 表 )。 只 要 知道 了 文件 的 第 一 个 扇 区 就 可 以 很 简单 地 找到 文件 的 任 
何 部 分 。 

为 了 在 磁盘 上 为 文件 分 配 空 间 ， 操 作 系 统 必 须知 道 哪些 块 是 可 用 的 ， 哪 些 块 已 经 被 其 他 
文件 占用 了 。 对 于 CD-ROM 来 说 ， 这 种 计算 只 预先 对 所 有 的 文件 执行 一 次 ， 但 是 对 于 硬盘 来 
说 ， 文 件 的 增加 和 删除 无 时 无 刻 不 在 发 生 。 一 种 方式 是 管理 一 张 碎 片 表 ， 碎 片 是 任意 数量 的 
连续 的 分 配 单元 。 这 张 表 称 为 自由 空间 表 (free list )。 图 6-22a 是 图 6-21b 所 示 磁 盘 的 自由 空 
间 表 ， 每 个 分 配 单元 一 个 扇 区 。 
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a) 自由 空间 表 b) 位 图 
图 6-22 ”两 种 掌握 可 用 扇 区 信息 的 方式 


另 一 种 方法 是 管理 一 张 位 图 ， 每 个 分 配 单元 一 位 ， 如 图 6-22b 所 示 。 如 果 是 1 表示 该 分 
配 单元 已 经 被 占用 了 ， 如 果 是 0 则 表示 该 单元 可 用 。 

第 一 种 方法 的 优点 是 易于 查找 某 一 特定 长 度 的 碎片 。 但 是 ， 它 的 缺点 是 表 长 是 变 长 的 。 
随 着 文件 的 创建 和 删除 ， 表 的 长 度 将 发 生 波动 ， 这 是 我 们 不 愿意 看 到 的 。 而 位 图 的 长 处 就 在 
于 它 的 大 小 是 固定 的 。 而 且 将 一 个 分 配 单元 的 状态 从 可 用 变 为 占用 只 需要 改变 一 位 。 但 是 ， 
想 找到 给 定 大 小 的 块 是 困难 的 。 当 磁盘 上 的 任何 文件 被 分 配 或 者 释放 时 ， 这 两 种 方法 则 需要 
分 别 修改 分 配 表 和 位 图 。 
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在 结束 文件 系统 实现 这 个 主题 之 前 ， 我 们 来 讨论 分 配 单元 的 大 小 。 这 里 有 好 几 个 因素 共 
同 起 作用 。 首 先 ， 寻 道 时 间 和 旋转 的 延 时 在 磁盘 访问 过 程 中 起 决定 作用 。 在 花费 了 5 ~ 108 
秒 的 时 间 找 到 一 个 分 配 单元 的 起 始 位 置 后 ， 读 SKB (KA 80 微 秒 ) 比 只 读 1KB (KA 10 微 
秒 ) 要 好 ， 因 为 如 果 8KB 是 8 个 1KB 的 单元 就 需要 执行 8 次 寻 道 。 提 高 传输 效率 就 要 求 使 
用 大 的 分 配 单元 。 当 然 ， 当 固态 盘 价 格 降低 并 得 到 广泛 使 用 之 后 ， 这 个 问题 就 不 存在 了 ， 因 
为 固态 盘 根 本 就 没有 寻 道 时 间 。 

支持 使 用 大 的 分 配 单元 的 另 一 个 原因 是 如 下 的 事实 : 分 配 单元 小 意味 着 分 配 单元 多 ， 分 
配 单元 多 也 就 意味 着 大 的 文件 索引 或 者 内 存 中 的 大 的 链表 。 作 为 一 个 有 历史 意义 的 注 记 ，MS- 
DOS 开始 的 时 候 分 配 单位 就 是 一 个 扇 区 ( 512 个 字 节 )， 使 用 16 位 的 数 来 标记 每 个 遍 区 。 当 
磁盘 超过 65 536 个 扇 区 后 ， 如 果 继 续 使 用 16 位 的 数 来 标记 分 配 单元 ， 那 么 使 用 全 部 磁盘 空 
间 的 唯一 办 法 就 是 使 用 更 大 的 分 配 单元 。 第 一 版 的 Windows 95 也 有 相同 的 问题 ， 但 它 的 后 续 
版 本 使 用 了 32 位 的 数 标记 分 配 单元 。Windows 98 则 同时 支持 两 种 长 度 的 数 进行 标记 。 

但 是 ， 赞 成 使 用 小 的 分 配 单元 是 基于 这 样 一 个 事实 : 很 少 有 文件 正好 是 分 配 单元 的 整数 
倍 。 因 此 ， 在 几乎 每 个 文件 的 最 后 的 一 个 分 配 单元 中 都 要 浪费 某 些 空间 。 如 果 文 件 比 分 配 单 
元 大 得 多 ， 平 均 浪 费 空间 将 是 分 配 单元 的 一 半 。 分 配 单元 越 大 ， 浪 费 的 空间 越 多 。 如 果 平 均 
文件 长 度 远 小 于 分 配 单元 ， 那 么 大 部 分 的 磁盘 空间 将 被 浪费 。 

举例 来 说 ， 在 一 块 MS-DOS 或 者 Windows 95 版 本 1 的 2GB 的 磁盘 分 区 上 ， 分 配 单元 是 
32KB， 这 时 100 个 字 节 的 文件 将 浪费 32 668 字 节 的 磁盘 空间 。 因 此 ， 提 高 存储 效率 要 求 使 用 
小 的 分 配 单元 。 由 于 大 容量 磁盘 价格 逐年 减低 ， 现 在 时 间 效 率 ( 即 更 快 的 性 能 ) 成 为 最 重要 
的 因素 ， 因 此 分 配 单元 大 小 也 随 着 时 间 不 断 增 加 ， 浪 费 的 磁盘 空间 也 只 能 接受 。 


6.3.3 ”目录 管理 指令 


在 计算 机 发 展 的 早期 ， 人 们 把 程序 和 数据 保存 在 穿孔 卡片 上 ， 然 后 再 把 穿孔 卡片 保存 在 
办 公 室 的 文件 柜 中 。 随 着 程序 的 增 大 ， 数 据 的 增多 ， 人 们 越 来 越 不 满意 这 种 情况 。 最 终 导致 
了 使 用 计算 机 辅助 存储 器 〈 比如 磁盘 ) 来 代 蔡 文件 柜 保存 程序 和 数据 。 不 需要 人 工 干 预 而 可 
以 由 计算 机 直接 访问 的 信息 称 为 联机 信息 (online )， 和 它 相 对 的 是 脱 机 信息 ( offline )， 脱 机 
信息 在 计算 机 能 够 访问 之 前 需要 人 工 干 预 ( 比如 ,插入 磁带 、CD-ROM. UA, SDF) 


联机 信息 被 保存 在 文件 中 ， 这 样 
程序 通过 上 面 讨论 的 文件 1O 指令 就 
类 型 : 
0: 
l; 


























者 令 来 管理 联机 保存 的 信息 ， 把 它们 
组 织 成 便于 使 用 的 集合 ， 并 对 它们 进 
行 保护 ， 防 止 非 授权 的 使 用 。 

操作 系统 组 织 联机 文件 的 通常 方 
法 是 把 它们 组 织 成 目录 (directory )。 
图 6-23 是 一 个 目录 组 织 的 例子 。 操 作 
系统 至 少 要 提供 实现 下 列 功 能 的 系统 
调用 : 2: o 扇 区 2 | 

1 ) 创建 一 个 文件 并 把 它 放 入 一 个 sm 
目录 。 图 6-23 ”用 户 文件 目录 和 文件 目录 中 一 个 典型 项 的 内 容 


可 以 访问 它们 。 但 是 ， 还 需要 额外 的 
型 image/jpeg 
创建 日 期 March 16,1066 
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2) 从 目录 中 删除 一 个 文件 。 

3 ) 重新 命名 一 个 文件 。 

4) 改变 文件 的 保护 状态 。 

所 有 的 现代 操作 系统 都 允许 用 户 维护 多 个 文件 目录 。 目 录 本 身 也 是 文件 ， 而 且 还 可 以 被 
列 在 其 他 目录 中 ， 这 样 就 产生 了 目录 树 。 多 重 目录 对 于 同时 从 事 多 个 项 目的 程序 员 来 说 相当 
有 用 。 他 们 可 以 把 和 一 个 项 目 相关 的 所 有 文件 都 保存 在 一 个 目录 中 。 当 为 该 项 目 工 作 时 ， 他 
们 不 会 被 无 关 文件 转移 注意 力 。 同 时 目录 为 项 目 组 的 成 员 之 间 共 享 文件 提供 了 方便 的 手段 。 


6.4 用 于 并 行 处 理 的 操作 系统 层 指令 


某 些 计算 过 程 使 用 两 个 或 者 更 多 个 协作 进程 并 行 执行 (比如 在 多 个 处 理 器 上 同时 执行 ) 
比 使 用 单一 进程 更 易于 编程 实现 。 还 有 一 些 计算 过 程 可 以 被 分 成 许多 片 ， 片 之 间 可 以 并 行 运 
471] 行 以 减少 整个 计算 过 程 所 需要 的 时 间 。 为 了 使 多 个 进程 可 以 并 行 工作 ， 需 要 一 些 虚拟 指令 。 
下 面 我 们 来 讨论 这 些 指令 。 
物理 学 定律 仍然 是 推动 当前 并 行 处 理发 展 的 男 一 个 原因 。 根 据 爱 因 斯 坦 的 狭义 相对 论 ， 
电子 信和 号 的 传送 速度 不 可 能 比 光速 更 快 ， 而 在 真空 中 光速 接近 于 1 英尺 / 纳 秒 ， 在 铜 导线 和 
光纤 中 要 更 慢 一 些 。 这 一 限制 对 于 计算 机 组 成 产生 了 重要 的 影响 。 举 例 来 说 ， 如 果 CPU 需 
要 从 和 它 相 距 1 英尺 的 内 存 读 取 数据 ， 那 么 请 求 到 达 内 存 至 少 要 1 纳 秒 的 时 间 ， 响 应 回 到 
CPU 又 需要 1 纳 秒 。 因 此 ， 纳 秒 级 的 计算 机 必须 做 得 非常 小 。 另 一 种 可 行 的 加 速 计 算 机 的 
方法 是 使 用 多 个 CPU。 一 台 有 1000 个 1 纳 秒 CPU 的 计算 机 的 计算 能 力 和 有 一 个 时 钟 周 期 为 
0.001 纳 秒 的 计算 机 相同 ， 而 前 者 更 容易 制造 而 且 也 更 便宜 。 第 8 章 将 进行 并 行 计 算 的 详细 
讨论 。 
在 具有 多 个 CPU 的 计算 机 上 ， 可 以 为 每 个 协作 进程 分 配 一 个 CPU， 这 样 进 程 就 可 以 同 
时 运行 。 如 果 只 有 一 个 处 理 器 ， 那 么 可 以 通过 让 处 理 器 按照 小 的 时 间 间 隔 轮流 运行 每 个 进程 
来 模拟 并 行 处 理 的 效果 。 换 句 话 说， 处 理 器 可 以 被 多 个 进程 共享 。 
图 6-24 中 显示 了 使 用 多 个 处 理 器 真正 做 并 行 处 理 和 只 有 一 个 处 理 器 模拟 的 并 行 处 理 之 间 
的 区 别 。 即 使 并 行 处 理 是 模拟 的 ， 我 们 也 可 以 把 它 看 作 是 每 个 进程 都 有 自己 专用 的 虚拟 处 理 
器 。 真 正 的 并 行 处 理 遇 到 的 通信 问题 在 模拟 情况 下 也 同样 会 遇 到 。 在 这 两 种 情况 下 调试 这 个 
问题 都 是 非常 困难 的 。 


进程 3 等 待 CPU 


进程 3 


进程 2 


进程 





时 间 时 间 
a) 使 用 多 个 CPU 的 真正 的 并 行 处 理 b) 一 个 CPU 在 三 个 进程 之 间 切 换 模 拟 的 并 行 处 理 
图 6-24 
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6.4.1 进程 创建 


当 程 序 被 执行 的 时 候 ， 它 一 定 是 作为 某 个 进程 的 一 部 分 。 此 进程 和 所 有 的 其 他 进程 一 样 ， 
由 状态 和 使 程序 和 数据 能 够 被 访问 的 地 址 空间 来 区 分 。 状 态 至 少 包 括 程序 计数 器 、 程 序 状态 
字 、 栈 指针 和 通用 寄存 器 。 

大 多 数 现代 操作 系统 允许 动态 地 创建 和 终止 进程 。 为 了 充分 利用 这 一 特性 来 实现 并 行 处 
理 ， 需 要 创建 新 进程 的 系统 调用 。 该 系统 调用 或 者 产生 一 个 和 调用 者 一 模 一 样 的 进程 ， 或 者 
允许 调用 进程 定义 新 进程 的 初始 状态 ， 包 括 它 的 程序 、 数 据 和 起 始 地 址 。 


在 某 些 操作 系统 中 ， 创 建 者 进程 (parent， 父 进程 ) 拥有 对 被 创建 进程 (child， 子 进程 ) © 


的 部 分 或 者 全 部 控制 权 。 父 进程 可 以 使 用 虚拟 指令 停止 、 重 启 、 检 查 和 中 止 其 子 进程 。 在 另 
外 一 些 操作 系统 中 ， 父 进程 不 能 控制 子 进 程 : 一 旦 进程 被 创建 ， 父 进程 就 没有 办 法 强迫 子 进 
程 停止 、 重 启 、 检 查 和 中 止 。 然 后 ， 两 个 进程 就 相互 独立 地 运行 。 


6.4.2 BARE 


在 某 些 情况 下 ， 为 了 完成 工作 ， 并 行进 程 需 要 相互 通信 和 同步 。 在 本 节 中 ， 我 们 将 讨论 
进程 同步 ， 通 过 一 个 详细 的 例子 来 说 明 其 中 的 难点 。 下 一 节 中 再 给 出 解决 这 些 难点 的 方案 。 

考虑 两 个 独立 进程 : 进程 1 和 进程 2， 它们 通过 内 存 中 的 共享 缓冲 区 进行 通信 。 为 了 便 
于 说 明 ， 我 们 把 进程 1 称 为 生产 者 ， 进 程 2 称 为 消费 者 。 生 产 者 计算 质数 并 一 次 放 一 个 到 组 
冲 区 中 。 消 费 者 也 每 次 从 缓冲 区 中 移 走 一 个 并 打印 出 来 。 

这 两 个 进程 以 不 同 的 速率 并 行 运行 。 如 果 生 产 者 发 现 缓冲 区 满 了 就 去 睡眠 ; 也 就 是 说 ， 
它 暂 时 停止 它 的 操作 等 待 消费 者 的 信号 。 接 下 来 ， 当 消费 者 从 缓冲 区 中 移 走 一 个 数 后 ， 它 给 
生产 者 发 送 一 个 消息 来 唤醒 它 一 一 也 就 是 说 ， 让 它 重新 运行 。 类 似 地 ， 如 果 消 费 者 发 现 缓冲 
区 是 空 的 ， 它 也 转 去 睡眠 。 当 生产 者 把 一 个 数 放 入 空 的 缓冲 区 后 ， 它 会 唤醒 睡眠 的 消费 者 。 

在 这 个 例子 中 ， 我 们 将 使 用 循环 的 缓冲 区 进行 进程 间 通 信 。 我 们 按照 下 面 的 方式 使 用 指 
针 in 和 out : ip 指向 下 一 个 空闲 字 (生产 者 放下 一 个 质数 的 位 置 out 指向 消费 者 将 要 移 走 
的 下 一 个 字 。 当 in=out 时 ， 缓 冲 区 为 空 ， 如 图 6-25a 所 示 。 当 生产 者 产生 了 一 些 质数 之 后 ， 
缓冲 区 如 图 6-25b 所 示 。 图 6-25c 是 消费 者 移 走 了 一 些 质数 去 打印 之 后 的 情况 。 图 6-25d ~ f 
记录 了 接 下 来 的 缓冲 区 活动 的 结果 。 从 逻辑 上 说 ， 缓 冲 区 的 顶 和 底部 是 相连 的 ， 也 就 是 说 ， 
缓冲 区 是 循环 的 。 当 突然 产生 大 量 的 输入 时 ，in 指针 将 绕 回 来 一 直到 out 指针 后 面 的 一 个 字 
(例如 ，in=52，out=53 )， 这 时 缓冲 区 就 满 了 。 最 后 一 个 字 不 能 使 用 ， 如 果 使 用 ， 我 们 就 没有 
办 法 区 别 in=out 时 缓冲 区 是 满 的 还 是 空 的 。 


out out 
° ° ea 
pad out out in 
in, k a Fa 
out 
a) b) c) d) e) f) 


out 


图 6-25 ”使 用 循环 缓冲 区 


340 


OF 


图 6-26 是 生产 者 一 一 消费 者 问题 的 一 个 简单 的 Java 语言 实现 。 该 实现 中 使 用 了 三 个 类 : 
m, producer 和 consumer, m(main) 类 包括 一 些 常量 定义 ， 缓 冲 区 指针 in, out 和 缓冲 区 本 身 ， 
在 该 实现 中 ， 缓 冲 区 可 以 包括 100 个 质数 ，buffer[0] ~ buffer[99]. producer 和 consumer 类 来 


做 实际 工作 。 


public class m { 
final public static int BUF_SIZE = 100; 


final public static long MAX_PRIME = 100000000000L; 


public static int in = 0, out = 0; 


public static long buffer[ ] = new long[BUF_SIZE]; 


public static producer p; 
public static consumer c; 


public static void main(String args[ ]) { 
p = new producer‘ ); 

c = new consumer( ); 

p.start( ); 

c.start( ); 


} 


1// 这 是 循环 累加 in 和 out 的 函数 
public static int next(int k) {if (k < BUF_SIZE - 1) return(k+1); else return(0);} 


} 


class producer extends Thread { 
public void run( ) { 
long prime = 2; 


} 


while (prime < m.MAX_PRIME) { 


} 


prime = next_prime(prime); 

if (m.next(m.in) == m.out) suspend( ); 
m.buffer[m.in] = prime; 

m.in = m.next(m.in); 

if (m.next(m.out) == m.in) m.c.resume( ); 


private long next_prime(long prime){ ... } 


class consumer extends Thread { 
public void run( ) { 
long emirp = 2; 


while (emirp < m.MAX_PRIME) { 


程 就 会 启动 。 


if (m.in == m.out) suspend( ); 
emirp = m.buffer[m.out]; 
m.out = m.next(m.out); 


if (m.out == m.next(m.next(m.in))) m.p.resume( ); 


System.out.printin(emirp); 





// 缓冲 区 从 0 到 99 
// 结束 值 
/数据 指针 

l 质数 保存 在 这 里 
/生产 者 的 名 称 
/ 消费 者 的 名 称 
HEX 

// 创建 生产 者 
/ 创建 消费 者 
// 启动 生产 者 
U 启动 消费 者 


ll 生产 者 类 
/生产 者 代码 
ll 临时 变量 


Ii 语句 P1 
/语句 P2 
l 语 旬 P3 
I EPA 
ME AIPS 


/ 计算 下 一 个 质数 的 函数 


1/ 消费 者 类 
// 消费 者 代码 
/临时 变量 


小 语 名 C1 
I 语句 C2 
// 语句 C3 
ll 语句 C4 
BCS 


图 6-26 具有 致命 的 竞争 条 件 的 并 行 处 理 


该 实现 使 用 Java 线程 来 模拟 并 行进 程 。 在 其 实现 中 ， 有 一 个 producer 类 和 一 个 consumer 
类 ， 下 面 分 别 简写 为 p 和 c。 这 两 个 类 都 是 从 基本 类 Thread 派生 出 来 的 ，Thread 类 有 一 个 run 
方法 。run 方法 包括 用 于 线程 的 代码 。 当 调用 从 Thread 派生 出 的 对 象 的 start 方法 时 ， 新 的 线 


线程 和 进程 很 类 似 ， 只 不 过 所 有 的 线程 都 处 于 一 个 Java 程序 中 ， 这 样 它们 就 位 于 同一 个 
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地 址 空间 中 。 这 一 特性 便于 它们 共享 同一 个 缓冲 区 。 如 果 计 算 机 有 两 个 或 者 更 多 的 CPU， 那 
么 每 个 线程 都 可 以 位 于 不 同 的 CPU， 这 时 线程 就 真正 地 并 行 执行 了 。 如 果 只 有 一 个 CPU， 那 
么 所 有 的 线程 分 时 共享 这 个 CPU。 尽 管 Java 只 支持 并 行 线 程 而 不 支持 真正 的 并 行进 程 ， 我 们 
还 是 继续 把 生产 者 和 消费 者 称 为 进程 ( 因为 我 们 真正 感 兴 趣 的 是 并 行进 程 )。 

EHALA next 可 以 很 容易 地 对 in 和 out 进行 加 1 操作 ， 而 不 用 每 次 都 写 代 码 去 检查 
环绕 条 件 。 如 果 参 数 小 于 等 于 98， 直 接 将 其 加 1 返回 。 如 果 参 数 是 99, 说明 已 经 到 了 缓冲 区 
的 最 后 ， 因 此 返回 0。 

当 这 两 个 进程 不 能 继续 执行 时 ， 它 们 都 需要 一 种 能 使 自己 转 人 睡眠 状态 的 方法 。Java 语 
言 的 设计 者 们 知道 实际 使 用 中 会 有 这 种 需要 ， 因 此 从 Java 的 第 一 个 版 本 开始 ， 在 Thread 类 中 
就 包括 了 suspend ( 睡眠 ) 和 resume (唤醒 ) 方法 。 在 图 6-26 中 使 用 的 就 是 它们 。 

现在 我 们 来 看 一 看 真正 的 生产 者 和 消费 者 代码 。 首 先 ， 生 产 者 的 P1 语句 产生 一 个 新 的 
质数 。 注 意 这 里 用 到 了 m.MAX PRIME, MA m. 表示 MAX PRIME 是 在 类 m 中 定义 的 。 同 
样 ， 在 使 用 in、out、buffer 和 next 时 也 要 使 用 前 级。 

接着 生产 者 检查 (语句 P2 ) in 是 否 紧 跟 在 out 的 后 面 。 如 果 是 这 样 ( 比如 , in=62,out=63 ), 
说 明 缓 冲 区 满 了 ， 生 产 者 通过 调用 语句 P2 处 的 suspend 转 和 人 睡眠 状态 。 如 果 缓 冲 区 不 满 ， 就 
把 新 的 质数 插入 缓冲 区 (语句 P3) 并 把 in 指针 加 1 (语句 P4 )。 如 果 新 的 ip 值 只 比 out 值 大 
1 (语句 P5 ) (例如 ，in=17，out=16 )， 这 时 加 1 之 前 的 in 和 out 一定 是 相等 的 ， 因 为 in 刚刚 
被 加 1。 这 时 生产 者 就 知道 刚才 缓冲 区 是 空 的 而 且 消 费 者 一 定 还 在 睡眠 。 因 此 ， 生 产 者 调用 
resume 去 唤醒 消费 者 (语句 P5 )。 最 后 ， 生 产 者 开始 计算 下 一 个 质数 。 

消费 者 的 程序 结构 和 生产 者 类 似 。 首 先 检查 缓冲 区 是 否 为 空 (WAC) WRAS, W 
费 者 不 做 任何 工作 转 人 睡眠 状态 。 如 果 缓 冲 区 不 为 室 ， 它 就 从 缓冲 区 中 移出 下 一 个 要 打印 的 
数 (语句 C2 ) 并 把 out 加 1 (语句 C3 )。 如 果 在 语句 C4 处 out HE in 领先 2 个 位 置 ， 那 么 刚才 
out 一 定 只 比 in 领先 一 个 位 置 ， 因 为 out 刚刚 被 加 1。 由 于 in=out-1 是 “缓冲 区 满 ” 条 件 ， 因 
此 生产 者 一 定 还 在 睡眠 ， 这 时 消费 者 用 resume 唤醒 它 。 最 后 ， 把 数 打印 出 来 (语句 C5 ) 并 
继续 执行 循环 。 

不 幸 的 是 ， 该 设计 有 一 个 致命 的 缺陷 ， 如 图 6-27 所 示 。 记 住 ， 这 两 个 进程 的 执行 是 异步 
的 而 且 运行 速度 可 能 也 不 相同 。 考 虑 图 6-27a 所 示 的 情况 ， 这 时 缓冲 区 中 只 剩 21 项 处 有 一 
个 数 ，in=22，out=21。 生 产 者 正在 执行 语句 Pl 计算 下 一 个 质数 ， 而 消费 者 正在 执行 语句 C5， 
打印 缓冲 区 第 20 项 的 数 。 消 费 者 完成 打印 后 ， 执 行 C1 语句 处 的 测试 ， 然 后 在 C2 语句 处 取 
出 缓冲 区 中 的 最 后 一 个 数 ， 然 后 把 out 加 1。 这 时 ，in 和 out 的 值 都 是 22。 消 费 者 打印 该 数 后 
又 转 到 C1， 为 了 比较 in 和 out， 它 把 它们 从 内 存 中 取出 来 ， 如 图 6-27b 所 示 。 

就 在 消费 者 取出 in 和 out 之 后 而 又 没 来 得 及 比较 之 前 ， 生 产 者 算出 了 下 一 个 质数 。 语 句 
P3 把 该 质数 放 人 缓冲 区 ， 然 后 语句 P4 把 in 加 1。 现 在 in=23 而 out=22。 在 语句 P5 处 ， 生 
产 者 发 现 in=next(out)。 也 就 是 说 ，in 正好 比 out 多 1， 表示 现在 缓冲 区 中 只 有 一 项 。 因 此 
生产 者 ( 并 不 正确 地 ) 认为 消费 者 一 定 在 睡眠 ， 因 此 它 发 送 了 一 个 唤醒 信号 (也 就 是 调用 
resume )， 如 图 6-27c 所 示 。 当 然 ， 消 费 者 本 来 就 是 醒 着 的 ， 因 此 唤醒 信号 将 被 忽略 。 生 产 者 
开始 计算 下 一 个 质数 。 

消费 者 继续 执行 。 在 生产 者 把 最 后 一 个 质数 放 人 缓冲 区 之 前 消费 者 已 经 取出 了 in 和 out, 
因为 它们 的 值 都 是 22， 消 费 者 将 转 入 睡眠 状态 。 现 在 生产 者 找到 了 另 一 个 质数 。 它 检查 指 
针 发 现 in=24 而 out=22， 因 此 它 认为 缓冲 区 中 有 两 个 数 (正确 ) 而 消费 者 也 是 醒 着 的 ( 不正 
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确 )。 于 是 生产 者 继续 执行 循环 。 最 终生 产 者 将 填 满 缓冲 区 并 转 人 睡眠 状态 。 现 在 生产 者 和 消 
费 者 都 进入 了 睡眠 状态 而 且 将 永远 地 睡 下 去 。 


生产 者 在 P1 生产 者 在 P1 生产 者 在 P5 


消费 者 在 C5 S 消费 者 在 C1 唤醒 C1 的 消费 者 





缓冲 区 空 in=23 


in=out=22 out=22 





b) 
图 6-27 生产 者 - 消费 者 通信 机 制 的 缺陷 


477 问题 在 于 在 消费 者 取得 in 和 out 之 后 和 它 转 人 睡眠 之 前 的 这 段 时 间 内 ， 生 产 者 发 现 
in=out+1， 因 此 它 认 为 消费 者 处 于 睡眠 状态 ( 实际 上 并 不 是 这 样 )， 并 发 送 了 一 个 唤醒 信号 ， 
当然 由 于 消费 者 并 没有 睡眠 因此 唤醒 信号 也 就 丢失 了 。 这 就 是 著名 的 竞争 条 件 问题 (race 
condition )， 因 为 此 方法 的 成 功 依赖 于 在 out 加 1 之 后 谁 赢得 对 ip 和 out 的 竞争 测试 的 胜利 。 

竞争 条 件 问题 很 著名 。 实 际 上 ， 这 一 问题 是 如 此 严重 以 致 于 SUN 公司 在 设计 完成 Java 
多 年 以 后 还 对 Thread 类 进行 修改 并 改写 了 suspend 和 resume 方法 ， 因 为 它们 常常 会 导致 竞争 
条 件 。 上 面 是 一 个 基于 语言 的 方案 ， 但 是 既然 我 们 这 里 研究 的 是 操作 系统 ， 我 们 将 讨论 一 个 
不 同 的 方案 ， 这 一 方案 被 包括 UNIX 和 Windows 7 在 内 的 许多 操作 系统 支持 。 


64.3 ”使 用 信号 量 的 进程 同步 


至 少 有 两 种 办 法 可 以 解决 竞争 条 件 。 一 种 方法 是 为 每 个 进程 装备 一 个 “唤醒 等 待 位 "。 无 
论 何 时 给 一 个 正在 运行 的 进程 发 送 唤醒 信号 ， 该 进程 的 唤醒 等 待 位 将 被 置 1。 无 论 何 时 当 进 
程 转 人 睡眠 状态 而 唤醒 等 待 位 又 是 1 时 ， 进 程 将 立刻 重新 运行 并 把 唤醒 等 待 位 清除 。 唤 醒 等 
待 位 保存 了 多 余 的 唤醒 信号 用 于 将 来 使 用 。 

尽管 这 种 方法 可 以 解决 两 个 进程 之 间 的 竞争 条 件 问题 ， 但 当 它 们 处 理 一 般 情 况 下 的 个 
进程 之 间 的 通信 间 题 时 它 就 会 失败 ， 因 为 需要 保存 的 唤醒 信号 可 能 有 多 达 n-1 个 。 当 然 ， 可 
以 给 每 个 进程 装备 n-1 个 唤醒 等 待 位 来 保存 n-1 个 唤醒 信号 ， 但 是 这 种 方案 相当 笨拙 。 

Dijkstra ( 1968b ) 提出 了 一 种 解决 并 行进 程 同步 问题 的 更 通用 的 方案 。 在 内 存 中 使 用 两 
个 称 为 信号 量 (semaphore ) 的 非 负 的 整数 变量 。 操 作 系统 提供 两 个 系统 调用 up 和 down 来 操 
作 信 号 量 。up 给 信号 量 加 1, down MIÈ 1。 

如 果 执 行 down 操作 的 信号 量 大 于 0， 则 直接 将 其 减 1， 执 行 此 操作 的 进程 继续 执行 。 如 
果 信 和 号 量 是 0， 那么 down 操作 将 不 能 完成 ;执行 此 down 操作 的 进程 将 转 入 睡眠 状态 直到 其 
他 进程 在 该 信号 量 上 执行 up 操作 为 止 。 通 常 睡眠 进程 将 排 成 队列 进行 记录 。 

up 指令 检查 信号 量 是 否 为 0。 如 果 为 0 而 且 有 其 他 进程 在 此 信号 量 上 睡眠 ， 则 将 此 信号 
量 加 1。 睡 眠 的 进程 会 完成 挂 起 的 down 操作 ， 又 把 信号 量 置 为 0， 然 后 两 个 进程 继续 运行 。 
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一 条 up 指令 只 能 给 一 个 信号 量 加 1。 实 际 上 ， 信 号 量 提供 了 一 个 保存 唤醒 操作 以 供 将 来 使 用 
的 计数 器 ， 这 样 唤醒 操作 就 不 会 丢失 了 。 信 号 量 指令 的 一 个 基本 性 质 是 一 旦 进程 开始 执行 信 
号 量 指令 ,那么 在 此 进程 完成 这 次 操作 或 者 试图 在 值 为 0 的 信号 量 上 执行 down 操作 而 被 挂 
起 之 前 其 他 进程 不 能 访问 此 信号 量 。 图 6-28 中 概括 了 up 和 down 系统 调用 的 基本 性 质 。 


信号 量 = 信号 量 +1; 


如 果 其 他 进程 试图 在 该 信号 量 上 完成 down 操作 时 阻塞 ， 那 | 信号 量 = 信号 量 +1 
么 该 进程 现在 可 以 完成 down 操作 并 继续 执行 。 


信号 量 = 信号 量 -1 





图 6-28 信号 量 操作 的 效果 


上 文 已 经 提 到 ，Java 语言 有 一 个 基于 语言 的 解决 竞争 条 件 的 方案 ， 而 现在 我 们 讨论 的 是 
操作 系统 。 因 此 我 们 需要 一 种 用 Java 语言 表达 的 信号 量 用 法 ， 即 使 它 不 在 语言 定义 或 者 标准 
类 库 中 。 我 们 假设 写 了 两 个 本 地 方法 up 和 down 分 别 执行 up 和 down 系统 调用 。 通 过 使 用 普 
通 的 整数 作为 参数 来 调用 它们 ， 我 们 就 有 了 一 种 在 Java 语言 中 表达 信号 量 的 方法 。 

图 6-29 向 我 们 展示 了 如 何 使 用 信号 量 消除 竞争 条 件 。 在 类 m 中 增加 了 两 个 信和 号 量 : 
available ( 初始 值 是 100， 缓 冲 区 的 大 小 ) Al filled (初始 值 是 0)。 和 上 一 个 例子 一 样 ， 生 
产 者 从 图 6-29 的 Pl1 语句 开始 执行 ， 而 消费 者 从 C1 开始 执行 。 在 filled 上 执行 的 down 调用 
立即 阻塞 了 消费 者 进程 。 当 生产 者 找到 第 一 个 质数 之 后 ， 它 对 available 执行 down 操作 ， 将 
available 置 为 99。 在 语句 P5 处 ， 它 使 用 filled 作为 参数 调用 up， 使 flled 变 为 1。 这 一 操作 
将 把 消费 者 唤醒 ， 消 费 者 可 以 继续 执行 挂 起 的 down 调用 。 在 这 以 后 ，filled 变 为 0 而 两 个 进 
程 都 继续 运行 。 

现在 我 们 再 来 看 一 下 竞争 条 件 。 在 某 个 特定 时 刻 ，in=22，out=21， 生 产 者 在 执行 语句 P1 
而 消费 者 在 执行 语句 C5。 消 费 者 完成 工作 之 后 转向 Cl 对 filled 执行 down 调用 ，filled 在 调 
用 之 前 值 为 1 而 调用 之 后 值 为 0。 然 后， 消费 者 从 缓冲 区 中 取出 最 后 一 个 数 并 对 available 执 
行 up 操作 ， 使 它 变 成 100。 消 费 者 打印 该 数 后 又 转向 C1。 就 在 消费 者 调用 down 之 前 ， 生 产 
者 找到 了 下 一 个 质数 并 快速 执行 语句 P2、P3 和 了 P4。 

这 时 候 ，flled 是 0。 生 产 者 将 要 对 它 执行 up 而 消费 者 想 执行 downs 如 果 消 费 者 先 执行 ， 
它 将 被 挂 起 直到 生产 者 将 其 释放 (通过 调用 up 来 实现 )。 如 果 是 另 一 种 情况 ， 生 产 者 先 执行 ， 
信和 号 量 将 被 置 为 1 而 消费 者 根本 不 会 被 挂 起 。 在 这 两 种 情况 下 ， 唤 醒 信 和 号 都 不 会 丢失 。 当 然 ， 
这 是 我 们 引入 信号 量 所 要 实现 的 第 一 个 目标 。 

信号 量 操作 的 基本 特性 是 它们 是 不 可 分 割 的 。 当 一 个 信号 量 操作 启动 后 ， 在 它 完成 或 者 
被 挂 起 之 前 ， 其 他 的 进程 不 能 使 用 该 信号 量 。 而 且 ， 使 用 信号 量 可 以 保证 不 丢失 唤醒 信和 号 。 
与 之 相对 ， 图 6-26 中 的 让 语句 就 是 可 以 分 割 的 。 在 让 语句 计算 条 件 和 执行 相应 的 语句 之 间 ， 
另 一 个 进程 可 以 向 它 发 送 唤醒 信和 号 。 

实际 上 ， 只 要 宣布 由 up 和 down 操作 实现 的 up 和 down 系统 调用 是 不 可 分 割 的 ， 进 程 同 
步 问题 就 已 经 解决 了 。 为 了 保证 这 些 操作 是 不 可 分 割 的 ， 操 作 系统 必须 禁止 两 个 或 者 更 多 的 
进程 同时 使 用 同一 个 信号 量 。 至 少 应 该 保证 ， 一 旦 开始 执行 up 和 down 系统 调用 ， 那 么 在 此 
调用 结束 之 前 不 能 执行 其 他 的 用 户 代码 。 在 单 处 理 器 系统 中 ， 信 号 量 有 时 通过 在 信号 量 操 作 
期 间 禁 止 中 断 来 实现 。 但 是 在 多 处 理 器 系统 中 ， 这 种 方法 就 行 不 通 了 。 
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public class m { 
final public static int BUF_SIZE = 100; 


final public static long MAX_PRIME = 100000000000L; 


public static int in = 0, out = 0; 


public static long buffer[ ] = new long[BUF_SIZE]; 


public static producer p; 
public static consumer c; 
public static int filled = 0, available = 100; 


public static void main(String args[ ]) { 
p = new producer‘ ); 
c = new consumer‘ ); 
p.start( ); 
c.start( ); 


/这 是 循环 累加 in 和 out 的 函数 


1// 缓冲 区 从 0 到 99 
/结束 值 
/数据 指针 

l 质数 保存 在 这 里 
Il 生产 者 的 名 称 
I 消费 者 的 名 称 
1// 信号 量 
// 主 类 

/创建 生产 者 
1/ 创建 消费 者 
作 启 动 生产 者 
// 启动 消费 者 


public static int next(int k) {if (k < BUF_SIZE ~ 1) return(k+1); else return(0);} 


} 
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class producer extends Thread { MA Fe 
native void up(int s); native void down(int s); // 信号 量 方法 
public void run( ) { ll 生产 者 代码 
long prime = 2; /临时 变量 
while (prime < m.MAX_PRIME) { 
prime = next_prime(prime); Il 语句 P1 
down(m.available); I 语 铝 P2 
m.buffer[m.in] = prime; /语句 P3 
m.in = m.next(m.in); Il 语句 P4 
up(m.filled); /语句 P5 
} 
private long next_prime(long prime){ ... } // 计算 下 一 个 质数 的 函数 
class consumer extends Thread { 1/ 消费 者 类 
native void up(int s); native void down(int s); 内 信号 量 方法 
public void run( ) { 1/ 消费 者 代码 
long emirp = 2; / 临时 变量 
while (emirp < m.MAX_PRIME) { 
down(m. filled); I ACL 
emirp = m.buffer[m.out]; // 语句 C2 
m.out = m.next(m.out); // 语句 C3 
up(m.available); // 语句 C4 
System.out.printin(emirp); M5EACS 








图 6-29 ”使 用 信号 量 的 并 行 处 理 


信和 号 量 同步 技术 可 以 用 于 任意 多 个 进程 。 可 能 同时 有 多 个 进程 在 同一 个 信号 量 上 睡眠 ， 
或 者 都 试图 完成 down 系统 调用 。 当 某 个 其 他 进程 最 终 执行 up 操作 后 ， 只 要 一 个 等 待 进程 被 
允许 完成 down 操作 并 继续 执行 。 而 信号 量 值 仍然 是 0 其 他 的 进程 也 要 继续 等 待 。 

打 个 比方 可 能 会 使 信号 量 的 原理 更 加 清晰 。 假 设 在 一 次 郊游 活动 中 有 20 支 排球 队 分 成 
10 队 〈 相 当 于 10 个 进程 ) 进行 比赛 ， 每 队 都 有 自己 的 场地 ， 并 有 一 大 复 排 球 (相当 于 信号 
量 ) 不 幸 的 是 , EB AAT 个 排球 。 在 任意 时 刻 ， 复 里 的 排球 数量 都 在 0 ~ 7 之 间 (相当 于 
信号 量 的 值 在 0 ~ 7 之 间 )。 把 一 个 球 放 到 人 复 里 相当 于 执行 up 因为 信号 量 的 值 增加 了 。 从 笃 
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里 拿 一 个 球 相当 于 down 操作 ， 因 为 信号 量 的 值 被 减 1。 

在 郊游 活动 开始 的 时 候 ， 每 块 场地 都 派出 一 名 队员 到 黎 里 去 拿 球 。 他 们 之 中 只 有 7 个 人 
可 以 拿 到 排球 (完成 了 down 操作 ); 另外 三 个 人 不 得 不 在 禾 边 上 等 待 排 球 ( 也 就 是 说 ,没有 
完成 down 操作 )。 他 们 的 比赛 也 不 得 不 暂停 。 最 终 ， 有 一 组 的 比赛 结束 了 ， 他 们 的 球 被 放 回 
黎 里 (执行 up )。 这 样 三 队 等 球 的 队员 中 的 一 个 可 以 拿 到 这 个 球 (完成 了 刚才 的 down )， 而 
他 们 的 比赛 也 就 可 以 开始 了 。 其 他 两 队 队员 必须 继续 等 待 直到 又 有 两 个 球 被 放 回复 里 。 当 有 
两 个 或 者 更 多 的 球 回来 时 ( 两 个 或 者 更 多 的 up 操作 ) 最 后 两 队 比赛 也 可 以 开始 了 。 


6.5 ”操作 系统 实例 


本 节 我 们 将 继续 讨论 我 们 的 范例 系统 ，Core i7 和 OMAP4430 ARM CPU, 我们 将 讨论 两 
个 在 它们 上 面 运行 的 操作 系统 。 对 于 Core i7 我 们 将 讨论 Windows ; 对 于 OMAP4430 ARM 
CPU 我 们 将 讨论 UNIX。 由 于 UNIX 相对 简单 而 且 精 致 ， 我 们 将 从 UNIX 开始 讨论 。 另 外 ， 
UNIX 的 设计 和 实现 先 于 Windows 并 且 对 Windows 7 产生 了 很 大 的 影响 ， 因 此 这 种 顺序 比 反 
过 来 更 有 意义 。 


6.5.1 简介 


这 一 部 分 简单 介绍 我 们 使 用 的 两 个 操作 系统 实例 : UNIX 和 Windows 7， 主 要 介绍 它们 的 
发 展 历史 、 结 构 和 系统 调用 。 

1. UNIX 

UNIX 是 Bell 实验 室 在 20 世纪 70 年 代 早 期 设计 实现 的 。Ken Thompson 使 用 PDP-7 tk 
型 计算 机 的 汇编 语言 编写 了 第 一 个 版 本 。 很 快 就 有 了 PDP-11 的 版 本 ,该 版 本 使 用 的 是 由 
Dennis Ritchie 设计 和 实现 的 C 语 言 。 在 1974 年 ，Ritchie 和 ken Thompson 发 表 了 一 篇 关于 
UNIX 的 里 程 碑 式 的 著名 论文 (Ritchie 和 Thompson，1974 )。 后 来 他 们 由 于 该 论文 的 工作 获 
得 了 具有 很 高 荣誉 的 ACM 图 灵 奖 (Ritchie, 1984; Thompson，1984 )。 这 篇 论文 使 许多 大 学 
向 Bell 实验 室 索 要 UNIX, HF Bell 实验 室 的 母 公司 AT&T 当时 受到 反 垄 断 法 的 限制 不 能 经 
营 计 算 机 业务 ， 因 此 它 并 不 反对 用 低廉 的 价格 向 各 大 学 发 放 UNIX 使 用 许可 。 

还 有 一 个 事件 促进 了 UNIX 的 推广 ， 当 时 几乎 所 有 大 学 的 计算 机 科学 系 都 选择 PDP-11 
计算 机 ， 而 PDP-11 的 操作 系统 被 教授 和 学 生 们 一 致 认为 是 非常 可 怕 的 。UNIX 很 快 弥补 了 这 
一 缺陷 ， 至 少 UNIX 提供 了 完整 的 源 代码 ， 这 样 人 们 就 可 以 (而 且 确 实在 这 样 做 ) 不 断 地 对 
它 进行 修补 。 

加 利 福 尼 亚 大 学 伯克利 分 校 是 较 早 获得 UNIX 的 大 学 之 一 。 因 为 有 完整 的 源码 ， 伯 克利 
就 可 以 对 系统 进行 充分 的 修改 。 最 主要 的 修改 是 支持 VAX 微型 计算 机 ， 增 加 了 分 页 虚拟 内 
存 ， 把 文件 名 从 14 个 字 节 扩展 到 255 个 字 节 ， 还 包括 了 TCP/IP 网 络 协议 ， 该 协议 目前 正 用 
于 互联 网 (这 主要 归功 于 伯克利 的 UNIX 中 包括 了 它 )。 

在 伯克利 做 这 些 修 改 的 同时 ，AT&T 也 在 发 展 UNIX， 最 终 产生 了 1982 的 System II 和 
1984 的 System V。 到 了 20 世纪 80 年 代 后 期 ， 两 个 不 同 的 而 且 很 不 兼容 的 UNIX 版 本 : 伯 
克利 UNIX 和 System V 都 被 广泛 使 用 。 这 种 现象 造成 了 UNIX 世界 的 分 裂 ， 而 且 造 成 了 二 
进 制 程序 格式 没有 标准 可 循 ， 这 就 极 大 地 限制 了 UNIX 的 商业 应 用 ， 因 为 软件 厂商 不 能 编写 
出 用 于 所 有 的 UNIX 系统 的 UNIX 程序 (而 MS-DOS 就 可 以 )。 在 经 过 一 番 争 吵 之 后 ，IEEE 
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的 标准 化 部 门 通过 了 POSIX 标准 ( Portable Operating System-IX ), POSIX 的 IEEE 标准 号 是 
P1003。 它 后 来 成 了 国际 标准 。 : 

POSIX 标准 由 许多 部 分 组 成 ， 每 部 分 都 覆盖 了 UNIX 的 一 个 方面 。 第 一 部 分 ，P1003.1 
定义 了 系统 调用 ; 第 二 部 分 ，P1003.2 定义 了 基本 的 实用 程序 ， 等 等 。P1003.1 定义 了 大 约 60 个 
所 有 的 兼容 系统 都 必须 支持 的 系统 调用 。 它 们 是 用 于 读 写 文件 和 创建 新 进程 等 用 途 的 基本 的 
系统 调用 。 现 在 几乎 所 有 的 UNIX 系统 都 支持 P1003.1 系统 调用 。 但 是 许多 UNIX 系统 还 支 
持 额 外 的 系统 调用 ， 特 别 是 那些 System V 和 伯克利 UNIX 定义 的 系统 调用 ,它们 合计 会 在 
POSIX 调用 集合 之 上 增加 200 多 个 系统 调用 。 

1987 年 ， 作 者 (Tanenbaum ) 完成 了 称 为 MINIX 的 开放 源码 的 微型 UNIX 版 本 ,主要 用 
于 大 学 教学 ( Tanenbaum，1987 )。 一 个 在 赫尔辛基 的 一 所 大 学 念书 的 学 生 研 究 了 MINIX 系 
统 并 把 它 运 行 在 自己 家 里 的 PC 机 上 ， 这 个 学 生 就 是 Linus Torvalds。 在 透彻 地 分 析 了 MINIX 
系统 之 后 ，Torvalds 决定 自己 写 一 个 MINIX 的 克隆 版 本 ， 这 个 克隆 版 本 就 是 后 来 相当 流行 的 
Linux 系统 。 

现在 ARM 平 台 上 运行 着 的 很 多 操作 系统 都 是 基于 Linux 的 。MINIX F Linux 都 是 
POSIX 兼容 的 ， 如 果 没 有 特殊 说 明 的 话 ， 前 面 我 们 提 到 的 关于 UNIX 的 内 容 对 这 两 个 系统 也 
几乎 同样 适用 。 

Linux 系统 调用 的 一 个 粗略 分 类 如 图 6-30 所 示 。 文 件 和 目录 管理 的 系统 调用 是 最 大 也 
是 最 重要 的 一 类 。 尽 管 开发 者 在 某 些 方面 偏离 了 规范 ， 但 Linux 绝 大 部 分 还 是 符合 POSIX 
P1003.1 标准 的 。 总 之 ,不 管 怎样 ， 将 符合 POSIX 标准 的 程序 运行 到 Linux 十 还 是 不 难 的 。 


创建 和 删除 目录 ， 拷 贝 文件 
建立 连接 ， 接 受 连接 请 求 ; 发 送 /接收 报 文 


图 6-30 UNIX 系统 调用 的 粗略 分 类 


主要 来 自 于 伯克利 UNIX 而 不 是 System V 的 一 个 部 分 是 网 络 。 伯 克利 发 明了 套 接 字 
(socket) 的 概念 ， 它 是 网 络 连 接 的 端点 。 墙 上 的 用 于 插 电 话机 的 四 眼 插 口 就 是 此 概念 的 具体 
模型 。UNIX 进程 可 以 创建 一 个 套 接 字 ， 连 接 一 个 套 接 字 ， 还 可 以 与 远程 计算 机 的 套 接 字 建 
立 连接 。 通 过 此 连接 可 以 在 两 个 方向 上 交换 数据 ， 通 信 时 一 般 使 用 TCP/IP 协议 。 由 于 UNIX 
的 网 络 技术 已 经 使 用 了 几 十 年 而 且 非 常 成 熟 和 稳定 ， 因 此 互联 网 上 的 大 部 分 服务 器 都 运行 
UNIX, 

由 于 UNIX 有 许多 种 实现 ， 介 绍 操作 系统 的 结构 就 比较 困难 ， 因 为 每 一 种 和 其 他 的 结 
构 都 有 所 不 同 。 但 一 般 来 说 ， 图 6-31 的 结构 符合 大 多 数 的 UNIX 系统 。 底 部 是 设备 驱动 层 ， 
它 把 文件 系统 和 实际 硬件 隔离 开 。 最 初 的 时 候 ， 每 个 设备 驱动 程序 都 是 由 独立 的 公司 编写 
的 ， 彼 此 之 间 没 有 关系 。 这 种 安排 造成 了 大 量 的 重复 工作 ， 因 为 许多 驱动 程序 都 要 处 理 流 
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控 、 错 误 处 理 、 优 先 级 、 区 分 数据 流 和 控制 流 等 。Dennis Ritchie 观察 到 了 这 一 点 就 提出 了 
称 为 流 (stream) 的 、 按 照 模块 化 的 方式 编写 驱动 程序 的 框架 。 使 用 流 机 制 ， 就 可 以 在 用 户 
进程 和 硬件 设备 之 间 建 立 双向 的 连接 ， 在 连接 的 路 径 上 可 以 插入 一 个 或 者 多 个 模块 。 用 户 进 
程 把 数据 推 人 流 ， 然 后 各 个 模块 依次 对 它 进 行 处 理 和 传递 直到 到 达 硬 件 为 止 。 输 入 数据 时 过 
程 正好 相反 。 





系统 调用 接口 














文件 系统 进程 管理 Wi 
块 高 速 缓存 进程 间 通 信 模式 


图 6-31 典型 的 UNIX 系统 的 结构 


位 于 设备 驱动 程序 之 上 的 是 文件 系统 。 它 负责 管理 文件 名 、 目 录 、 磁 盘 块 分 配 、 保 护 和 
其 他 一 些 工 作 。 磁 盘 块 高 速 缓存 (block cache) 是 文件 系统 的 一 部 分 ， 它 保持 最 近 从 磁盘 上 
读 出 的 磁盘 块 ， 以 防 它们 被 再 次 使 用 。 在 过 去 的 这 些 年 中 使 用 了 多 种 文件 系统 ， 包 括 伯克利 
的 快速 文件 系统 (McKusick 等 ，1984 ) 和 日 志 结 构 的 文件 系统 ( Rosenblum 和 Ousterhout, 
1991; Seltzer 等 ，1993 )。 

UNIX 核心 的 另 一 部 分 是 进程 管理 。 进 程 管理 中 有 各 种 不 同 的 函数 ， 它 们 负责 管理 进程 
间 通 信 (InterProcess Communication, IPC), IPC 可 以 使 进程 之 间 相 互通 信 并 实现 同步 以 避 
免 竞 争 条 件 。 为 了 实现 这 一 点 ， 它 提供 了 多 种 不 同 的 机 制 。 进 程 管理 代码 还 要 负责 进程 调度 ， 
进程 调度 是 基于 优先 级 的 。 信 号 (signal ) 作为 一 种 ( 异步 的 ) 软件 中 断 也 在 这 里 管理 。 最 
后 ， 这 里 还 要 进行 内 存 管理 。 大 多 数 的 UNIX 系统 支持 请 求 调 页 虚拟 内 存 ， 有 时 候 还 支持 一 
些 额 外 的 特性 ， 例 如 多 个 进程 共享 同一 个 地 址 空间 中 的 某 个 区 域 的 能 力 。 

为 了 增强 可 靠 性 并 提高 性 能 ，UNIX 的 设计 初衷 是 想 做 成 一 个 小 系统 。UNIX 的 第 一 个 版 
本 只 支持 文本 ， 它 使 用 的 终端 只 能 显示 24 或 者 25 行 ， 每 行 80 个 ASCII 字符 。 用 户 接口 由 一 
个 称 为 外 壳 (shell) 的 用 户 级 程序 负责 管理 ，shell 提供 了 一 个 命令 行 的 接口 。 由 于 shell 并 不 
是 内 核 的 一 部 分 ， 因 此 给 UNIX 增加 新 的 shell 是 很 容易 的 ， 随 着 时 间 的 推移 ， 人 们 设计 出 大 
量 的 越 来 越 复杂 的 shell。 

后 来 ， 当 出 现 了 图 形 终端 之 后 ，M.LT 为 UNIX 设计 了 一 个 称 为 X Windows 的 窗口 系统 。 
再 后 来 ， TEX Windows 之 上 ， 又 有 了 一 个 称 为 Motif 的 完整 的 图 形 用 户 界面 ( Graphical User 
Interface, GUI )。 这 些 GUI 最 终 发 展 成 为 成 熟 的 桌面 环境 ， 它 们 具有 美化 泻 染 的 窗口 管理 、 
生产 力 工具 和 实用 程序 。 桌 面 环境 的 典型 代表 有 GNOME 和 KDE 等 。 为 了 维护 UNIX 的 微 
内 核 原则 ，X Windows 和 Motif 的 几乎 所 有 代码 都 运行 在 内 核 之 外 的 用 户 模式 下 。 

2. Windows 7 

当 最 早 的 IBM PC 在 1981 年 问世 的 时 候 ， 它 装备 的 操作 系统 是 MS-DOS 1.0， 这 是 一 个 
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16 位 的 实 模式 、 单 用 户 、 面 向 命令 行 的 操作 系统 。 它 的 内 存 驻 留 代 码 只 有 8KB。 两 年 以 后 ， 
出 现 了 更 加 强劲 的 驻 留 代 码 为 24KB 的 MS-DOS 2.0。 它 包括 一 个 命令 行 解释 器 (shell), H 
中 一 些 特性 是 从 UNIX 中 借鉴 来 的 。 当 IBM 于 1984 年 推出 基于 286 的 PC/AT 时 ， 它 装备 的 
Æ MS-DOS 3.0， 它 的 驻 留 代码 为 36KB。 在 后 来 的 发 展 中 ，MS-DOS 继续 扩充 新 特性 ， 但 它 
仍然 是 一 个 面向 命令 行 的 系统 。 

Apple 公司 的 Macintosh 机 的 成 功 促使 Microsoft 决定 给 MS-DOS 增加 一 个 叫做 Windows 
的 图 形 用 户 接口 。Windows 的 前 三 个 版 本 ,最 后 一 个 是 Windows 3.x， 并 不 是 真正 的 操作 系统 ， 
只 不 过 是 运行 在 MS-DOS 之 上 的 图 形 用 户 接口 ， 真 正 控制 计算 机 的 仍然 是 MS-DOS。 所 有 的 
程序 都 在 同一 个 地 址 空间 中 和 运行， 任何 一 个 程序 中 的 bug 都 可 以 使 整个 系统 月 演 。 

1995 年 推出 的 Windows 95 仍然 没有 结束 MS-DOS 的 使 命 ， 它 使 用 的 是 一 个 新 的 版 本 ， 
DOS 7.0。Windows 95 和 MS-DOS 7.0 包括 了 一 个 成 熟 的 操作 系统 的 大 部 分 特性 ， 包 括 虚拟 
内 存 、 进 程 管理 和 多 道 程序 。 但 是 ，Windows 95 并 不 是 一 个 全 32 位 的 程序 ， 它 包括 大 量 的 
旧 的 16 位 的 代码 ( 当然 也 有 32 位 的 代码 ) 而 且 仍然 使 用 MS-DOS 文件 系统 ， 仍 然 具 有 MS- 
DOS 文件 系统 的 种 种 限制 。 文 件 系统 的 唯一 的 重大 改进 是 把 MS-DOS 的 8+3 的 字符 文件 名 改 
成 了 长 文件 名 ， 并 且 具 有 了 支持 一 个 磁盘 上 可 以 超过 65 536 块 的 能 力 。 

即使 在 1998 年 推出 的 Windows 98 中 ，MS-DOS 仍然 存在 ( 现在 是 版 本 7.1) 并 运行 
在 16 位 模式 下 。 尽 管 更 多 的 功能 从 MS-DOS 转移 到 了 Windows, MARA a BAKE 
盘 ， 除 此 之 外 ，Windows 98 和 Window 95 之 间 并 没有 什么 大 的 区 别 。 主 要 的 区 别 是 用 户 界 
面 ， 用 户 界 面 中 集成 了 桌面 和 互联 网 ， 而 且 看 起 来 更 像 电 视 。 这 种 集成 恰恰 引起 了 美国 司法 
部 的 注意 ， 于 是 美国 司法 部 以 非法 垄断 的 罪名 起 诉 了 Microsoft。Winows 98 之 后 是 短命 的 
Windows 干 禧 版 (Windows Millennium Edition, Windows ME )， 这 个 版 本 对 Windows 98 进 
行 了 少量 改进 。 

在 取得 这 些 进展 的 同时 ，Microsoft 还 在 设计 一 个 全 新 的 32 位 的 操作 系统 。 这 个 新 系 
统称 为 Windows New Technology， 或 者 Windows NT。 起初 ，Microsoft 宣 称 Windows 
NT 可 以 替代 基于 Intel 的 PC 机 ( MIPS PowerPC 芯片 也 可 以 ) 的 所 有 其 他 的 操作 系统 ， 但 
是 进展 有 些 缓慢 ， 后 来 开发 方向 转向 高 端 市 场 ， 这 是 一 个 合适 的 定位 。NT 的 第 二 版 称 为 
Windows 2000， 而 且 成 为 Windows 主流 版 本 ，Windows 2000 也 面向 桌面 市 场 。Window XP 
是 Windows 2000 的 后 继 版 本 ， 改 动 较 小 ， 对 Windows 2000 只 有 少量 改进 ( 具有 更 好 的 向 
后 兼容 性 以 及 其 他 一 些 新 特性 )。2007 年 Windows Vista 发 布 。 与 Windows XP 相 比 Vista SE 
现 了 很 多 图 形 增强 ， 增 加 了 诸如 媒体 中 心 等 新 的 用 户 应 用 程序 。 因 为 Vista 的 性 能 不 佳 而 且 
对 资源 需求 较 高 等 原因 ， 用 户 接受 Vista 的 进展 很 慢 。 仅 仅 两 年 之 后 ，Windows 7 发 布 ， 这 
是 Vista 的 一 个 调整 版 本 。Windows 7 在 一 些 老 的 硬件 上 能 够 较 好 地 运行 ， 所 需 的 硬件 资源 
也 较 少 。 

Windows 7 出 售 时 有 六 个 版 本 。 其 中 三 个 版 本 是 针对 各 国家 庭 用 户 ， 两 个 版 本 针对 商业 
用 户 ， 最 后 一 个 版 本 则 包括 了 所 有 版 本 中 的 特性 。 这 些 版 本 基本 上 一 样 ， 主 要 区 别 集中 在 高 
级 特性 和 优化 模式 等 方面 。 我 们 重点 讨论 Windows 7 的 核心 特性 ， 各 个 版 本 的 区 别 不 是 我 们 


” 关注 的 重点 。 


在 研究 Windows 7 呈现 给 程序 员 的 接口 之 前 ， 我 们 先 来 快速 地 看 一 看 它 的 内 部 结构 ， 如 
图 6-32 所 示 。 它 由 一 些 分 层 组 织 的 模块 构成 ， 它 们 协同 工作 共同 实现 了 Windows 7 操作 系 
统 。 每 个 模块 都 实现 了 某 个 特定 的 功能 并 有 一 个 精心 定义 的 与 其 他 模块 的 接口 。 几 乎 所 有 的 
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模块 都 是 用 C 语言 编写 的 ， 尽 管 有 部 分 图 形 设 备 接口 是 用 C++ 编写 的 ， 最 低层 的 一 部 分 是 用 
汇编 语言 编写 的 。 


用 户 模式 系统 库 内 核 用 户 模式 调度 例 各 


内 核 模式 
NTOS 陷阱 /例外 /中 断 调 度 





内 核 层 CPU 调度 和 同步 ， 线 程 


可 弧 行 的 运行 时 库 


NTOS 执行 体 





硬件 CPU、MMU、 中 断 控 制 器 、 内 存 、 物 理 设备 、BIOS 


6-32 Windows 7 的 结构 


结构 底部 是 一 层 很 薄 的 硬件 抽象 层 (hardware abstraction layer )。 它 的 任务 是 使 操作 系统 
的 其 他 部 分 只 看 到 抽象 的 硬件 设备 ， 而 不 用 考虑 实际 硬件 的 各 种 令 人 讨厌 的 特性 。 这 些 硬件 
设备 包括 片 外 cache (off-line cache )、 时 钟 控 制 器 、LIO 总 线 、 中 断 控 制 器 和 DMA 控制 器 。 
通过 把 这 些 设 备 以 理想 化 的 形式 提供 给 操作 系统 的 其 他 部 分 ， 可 以 使 Windows 7 很 容易 地 被 
扩展 到 其 他 硬件 平台 上 ， 因 为 需要 进行 的 大 部 分 修改 都 集中 在 一 个 地 方 。 

在 硬件 抽象 层 之 上 ， 代 码 被 分 成 两 个 主要 部 分 ,一 部 分 是 NTOS 执行 体 (NTOS 
executive )， 另 一 部 是 Windows 驱动 程序 ( Windows driver )。 驱 动 程序 包括 文件 系统 、 网 络 
和 图 形 编码 等 。 这 两 部 之 上 是 内 核 层 。 所 有 这 些 代码 都 运行 在 受 保护 的 内 核 模 式 。 

执行 体 管理 Windows 7 中 使 用 的 基本 抽象 ， 包 括 线程 、 进 程 、 虚 拟 内 存 、 内 核对 象 以 及 
配置 等 。 此 外 ， 执 行 体 还 管理 本 地 过 程 调用 、 文 件 cache、IO 和 安全 等 。 

内 核 层 要 管理 陷阱 和 例外 处 理 ， 同 时 还 要 进行 调度 和 同步 等 。 

内 核 之 外 就 是 用 户 程序 和 与 操作 系统 接口 的 系统 库 。 和 UNIX 系统 不 同 ，Microsoft AR 
励 用 户 程序 直接 使 用 系统 调用 ， 而 是 希望 他 们 能 够 调用 库 中 的 过 程 。 为 了 在 不 同 的 Windows 
版 本 上 提供 标准 化 ，Microsoft 定义 了 称 为 Win32 API ( Application Programming Interface ) 的 
调用 集 。 这 些 API 是 一 些 库 过 程 ， 可 以 进行 系统 调用 完成 工作 ， 在 某 些 情况 下 ， 也 可 以 使 用 
用 户 空 间 库 过 程 完 成 任务 。 自 从 Win32 定义 以 来 ， 很 多 Windows 7 库 调 用 已 经 加 入 ， 这 些 都 
是 核心 调用 ， 也 是 我 们 将 继续 关注 的 。 后 来 ， 当 Windows 移植 到 64 位 的 机 器 上 时 , Microsoft [487 
改变 了 Win32 的 名 称 ， 这 样 可 以 同时 覆盖 32 位 和 64 位 两 种 版 本 的 系统 。 但 对 于 我 们 教学 而 
言 ， 讨 论 32 位 版 本 已 经 足够 了 。 

Win32 API 的 设计 思想 和 UNIX 完全 不 同 。 在 UNIX 中 ， 系 统 调用 是 众所周知 的 而 且 
形成 了 最 精简 的 接口 : 缺少 任何 一 个 系统 调用 都 会 削弱 操作 系统 的 功能 。 而 Win32 的 设 
计 思 想 是 提供 一 个 非常 复杂 的 接口 ， 完 成 一 项 工作 常常 有 三 种 或 者 四 种 方法 ， 还 包括 许多 
显然 不 应 该 是 ( 实际 上 也 不 是 ) 系统 调用 的 函数 ， 比 如 有 一 个 API 调用 是 拷贝 一 个 完整 的 
文件 。 
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有 许多 Win32 API 调用 创建 这 种 或 者 那 种 的 内 核对 象 ， 包 括 文 件 、 进 程 、 线 程 、 管 道 等 。 
创建 内 核对 象 的 调用 会 给 调用 者 返回 一 个 句柄 (handle )。 以 后 对 此 对 象 的 操作 都 通过 句柄 来 
完成 。 句 柄 只 能 在 创建 该 对 象 的 进程 内 使 用 。 不 能 把 它们 直接 传递 给 别 的 进程 使 用 ( 就 像 在 
UNIX 中 不 能 把 文件 描述 符 传递 给 别 的 进程 使 用 一 样 )。 但 在 某 些 特定 的 情况 下 ， 可 以 拷贝 一 
个 句柄 并 用 一 种 受 保护 的 方式 把 它 传 递 给 别 的 进程 ， 这 样 这 些 进程 就 可 以 访问 属于 其 他 进程 
的 对 象 。 每 个 对 象 都 有 一 个 与 之 相关 的 安全 描述 符 ， 它 详细 地 说 明了 谁 可 以 或 者 不 可 以 对 该 

有 的 时 候 称 Windows 7 是 面向 对 象 的 ， 因 为 管理 内 核对 象 的 唯一 的 方法 是 通过 句柄 调用 
它们 的 方法 (API 函数 )， 这 些 句 柄 是 对 象 建立 时 返回 的 。 但 另 一 方面 ， 它 缺少 面向 对 象 系统 
的 某 些 基本 特性 ， 比 如 继承 性 和 多 态 性 。 


6.5.2 ”虚拟 内 存 实例 


在 这 部 分 中 ， 我 们 来 研究 UNIX 和 Windows 7 的 虚拟 内 存 。 从 程序 员 的 角度 来 看 ， 它 们 
的 大 部 分 特性 都 很 相似 。 

1. UNIX 的 虚拟 内 存 

UNIX 的 内 存 模型 很 简单 。 每 个 进程 都 有 三 个 段 : 代码 段 、 数 据 段 和 栈 段 ， 如 图 6-33 所 
示 。 在 一 台 只 有 单一 线性 地 址 空间 的 计算 机 中 ， 代 码 段 通常 在 内 存 的 
底部 ， 上 面 是 数据 段 。 栈 段 则 在 内 存 的 顶部 。 代 码 段 的 大 小 是 固定 
的 ， 而 数据 段 和 栈 段 可 以 在 相反 的 方向 上 增长 。 这 种 模型 可 以 很 容易 
地 在 几乎 所 有 的 计算 机 上 实现 ，OMAP4430 ARM CPU 上 运行 的 
Linux 变异 版 本 也 使 用 了 这 种 模型 。 

此 外 ， 如 果 计 算 机 是 分 页 的 ， 整 个 地 址 空间 就 被 分 成 了 页 ， 当 然 
用 户 程 序 觉察 不 到 。 用 户 程序 唯一 可 以 觉察 到 的 是 可 以 允许 程序 的 大 
小 大 于 计算 机 的 物理 内 存 。 不 支持 分 页 的 UNIX 系统 通常 在 内 存 和 磁 ” 图 6-33 单 UNIX 进程 
盘 之 间 交 换 整 个 进程 ， 这 样 可 以 允许 分 时 执行 任意 数量 的 进程 。 的 地 址 空间 

对 于 伯克利 UNIX 来 说 ， 它 基本 符合 我 们 前 面 讨论 的 请 求 调 页 虚拟 内 存 模式 。 但 是 
System V (还 有 Linux ) 则 包括 一 些 可 以 允许 用 户 使 用 更 复杂 的 方式 管理 他 们 的 虚拟 内 存 的 
模式 。 其 中 最 重要 的 一 点 是 进程 可 以 把 一 个 文件 (或 者 文件 的 一 部 分 ) 映射 到 其 地 址 空间 中 。 
比如 说 ， 如 果 把 一 个 12KB 的 文件 映射 到 虚拟 地 址 144KB， 那 么 从 地 址 144KB 读 到 的 就 是 该 
文件 的 第 一 个 字 。 用 这 种 方式 不 用 执行 系统 调用 就 可 以 实现 文件 1O。 由 于 某 些 文件 的 大 小 
可 能 会 超过 虚拟 地 址 空间 的 大 小 ， 因 此 也 可 以 只 映射 文件 的 一 部 分 而 不 是 整个 文件 。 映 射 文 
件 时 首先 打开 该 文件 并 返回 一 个 文件 描述 符 应 ， 它 用 于 标识 被 映射 的 文件 。 接 下 来 进程 执行 
调用 

paddr = mmap(virtual_address, length, protection, flags, fd, file_offset) 

该 调用 将 把 从 文件 的 file_offset 处 开始 的 length 个 字 节 映射 到 从 virtual address 开始 的 虚 
拟 地 址 空间 中 。 作 为 选择 ， 可 以 设置 flags 参数 来 要 求 操作 系统 选择 一 个 虚拟 地 址 ， 它 将 放 在 
返回 值 paddr 中 。 映 射 区 域 必须 是 整数 张 页 而 且 按 照 页 边界 对 齐 。protection 参数 可 以 定义 读 、 
写 和 执行 权限 的 任意 组 合 。 映 射 使 用 完 之 后 还 可 以 通过 unmap 操作 取消 。 

多 个 进程 可 以 同时 映射 一 个 文件 。 系 统 提 供 了 两 个 共享 选项 。 在 第 一 种 选项 中 ， 所 有 的 
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页 都 被 共享 ， 因 此 一 个 进程 的 写 操作 对 其 他 进程 来 说 也 是 可 见 的 。 该 选项 提供 了 一 种 高 带宽 
的 进程 间 通 信 方 法 。 另 一 种 选项 是 共享 设 有 被 进程 修改 过 的 页 。 但 是 只 要 任何 一 个 进程 试图 
向 页 中 写 ， 就 会 产生 一 个 保护 错 ， 这 时 操作 系统 就 会 给 此 进程 一 份 该 页 的 拷贝 ， 让 该 进程 写 。 
这 种 方式 就 叫做 写 时 拷贝 (copy on write )， 它 用 于 多 个 进程 同时 需要 一 个 文件 映射 的 时 候 。 
这 种 模型 中 的 共享 是 一 种 优化 ， 而 不 仅仅 是 语义 。 

2. Windows 7 的 虚拟 内 存 

在 Windows 7 中 ， 每 个 用 户 进程 都 有 自己 的 虚拟 地 址 空间 。 在 32 位 的 Windows 7 版 本 
中 ， 虚 拟 地 址 为 32 位 长 ， 因 此 每 个 进程 有 4GB 的 虚拟 地 址 空间 。 低 端的 2GB 用 于 进程 的 代 
码 和 数据 ; 高 端的 2GB 只 限于 核心 内 存 使 用 ， 在 Windows 的 服务 器 版 中 ， 虚 拟 地 址 空间 中 的 
3GB 给 用 户 使 用 ，1GB 给 内 核 使 用 。 虚 拟 地 址 空间 是 请 求 调 页 方式 的 ， 页 大 小 是 固定 的 (在 
Core i7 中 是 4KB )。64 位 版 本 的 Windows 7 的 地 址 空间 也 很 类 似 ， 只 是 代码 和 数据 空间 使 用 
虚拟 地 址 空间 的 低 8TB 部 分 。 

每 个 虚 页 都 处 于 以 下 三 种 状态 之 一 : 空闲 、 保 留 和 提交 。 空 闲 页 (free page) 是 当前 没 
有 使 用 的 页 ， 如 果 访 问 它 将 产生 页 错误 。 当 进程 刚 开 始 运行 的 时 候 ， 它 的 所 有 页 都 处 于 空闲 
状态 直到 程序 和 初始 的 数据 被 映射 到 它 的 地 址 空间 中 。 一 旦 代码 或 者 数据 被 映射 到 某 一 页 中 ， 
该 页 就 处 于 提交 (committed ) 状态 。 对 提交 页 的 访问 将 通过 虚拟 内 存 硬 件 来 实现 ， 如 果 该 页 
在 内 存 中 则 访问 成 功 。 如 果 该 页 不 在 内 存 中 ， 将 会 产生 缺 页 操作 ， 系 统 会 找到 此 页 并 把 它 从 
磁盘 调 人 内存 。 一 个 虚 页 也 可 以 处 于 保留 ( reserved ) 状态 ， 这 就 意味 着 在 它 的 保留 内 容 没 
有 被 移 走 之 前 不 能 使 用 它 。 除 了 空闲 、 保 留 和 提交 这 些 属 性 之 外 ， 页 还 具有 其 他 的 属性 ， 比 
如 可 读 、 可 写 和 可 执行 等 。 内 存 顶 部 的 64KB 和 底部 的 64KB 总 是 空闲 的 ， 用 于 获取 指针 错 
误 (没有 初始 化 的 指针 通常 是 0 或 者 -1 )。 

每 个 提交 页 在 磁盘 上 都 有 一 个 映射 页 ， 当 此 提交 页 不 在 内 存 中 时 它 就 在 此 映射 页 上 。 空 
闲 的 和 保留 的 页 没有 映射 页 ， 因 此 访问 它们 会 产生 页 错误 ( 如 果 磁 盘 上 没有 该 页 当然 系统 也 
就 得 不 到 此 页 )。 磁 盘 上 的 映射 页 被 组 织 成 一 个 或 者 多 个 页 文件 。 操 作 系 统 知 道 虚 页 映射 到 哪 
个 分 页 文件 的 哪 一 部 分 。 对 于 只 能 执行 的 程序 ， 它 的 可 执行 二 进 制 文件 包括 了 映射 页 ; 数据 
页 则 使 用 了 特殊 的 分 页 文件 。 

Windows 7 和 System V 一 样 ， 人 允许 直接 把 文件 映射 到 虚拟 地 址 空间 的 区 域 中 ( 即 运行 的 
页 面 )。 一旦 一 个 文件 被 映射 到 地 址 空间 中 ， 就 可 以 使 用 通常 的 内 存 引 用 来 对 它 进行 读 写 。 

内 存 映 射 文件 和 其 他 的 提交 页 的 实现 方式 是 相同 的 ， 只 不 过 映射 页 位 于 磁盘 文件 上 而 不 
是 在 页 文件 中 。 作 为 结果 ， 当 一 个 文件 被 映射 时 ， 它 的 内 存 版 本 可 能 和 磁盘 版 本 不 一 致 ( 这 
是 由 于 最 近 向 虚拟 地 址 空间 中 写 人 )。 但 是 ， 当 取消 文件 映射 或 者 显 式 地 刷新 时 ,磁盘 版 本 将 
会 被 更 新 。 

Windows 7 明确 地 允许 两 个 或 者 更 多 的 进程 同时 映射 到 一 个 文件 ， 当 然 可 能 位 于 不 同 的 
虚 地 址 空间 中 。 通 过 读 写 内 存 字 ， 进 程 之 间 可 以 相互 通信 并 能 以 很 高 的 带宽 交换 数据 ， 因 为 
不 需要 任何 拷贝 。 不 同 的 进程 可 能 有 不 同 的 访问 权限 。 由 于 所 有 的 进程 都 使 用 一 个 共享 所 有 
页 的 映射 文件 ， 其 中 一 个 进程 对 它 进行 修改 其 他 进程 可 以 立即 发 现 ， 即 使 磁盘 文件 还 没有 被 
更 新 。 
Win32 API 包 括 大 量 的 允许 进程 显 式 地 管理 其 虚拟 地 址 空间 的 函数 。 其 中 最 重要 的 一 些 
函数 列 在 图 6-34 中 。 所 有 这 些 函 数 的 操作 区 域 或 者 是 一 张 单独 的 页 或 者 是 虚拟 地 址 空间 中 的 
两 张 或 者 多 张 连续 页 组 成 的 区 域 。 
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前 四 个 API 函数 的 意义 是 不 言 自明 的 。 接 下 来 的 两 个 函数 ， 前 一 个 使 进程 可 以 在 内 存 
中 保留 数 页 的 存储 区 而 不 进行 换 页 ， 后 一 个 函数 则 具有 相反 的 功能 。 实 时 程序 可 能 会 用 到 
这 一 功能 。 只 有 系统 管理 程序 才 可 能 在 内 存 中 固定 页 面 。 这 种 由 操作 系统 强加 给 进程 的 限 
制 可 以 使 进程 不 至 于 变 得 太 贪 禁 。 虽 然 在 图 6-34 中 并 没有 列 出 ,但 是 Windows 7 同样 也 具 
有 可 以 允许 一 个 进程 访问 由 其 他 进程 控制 的 虚拟 地 址 空间 的 API 函数 ( 比如 通过 句柄 进行 
访问 )。 















a X 
预 留 或者 分 配 一 块 内 存 区 
释放 或 者 回收 一 块 内 存 区 
改变 内 存 区 域 的 读 / 写 /执行 保护 
查询 内 存 区 的 状态 

贮 留 一 块 内 存 区 域 (也 就 是 禁止 分 页 ) 
使 内 存 区 域 恢复 到 通常 的 分 页 状态 
创建 文件 映射 对 象 并 ( 可 选 ) 给 它 命名 
把 文件 (一 部 分 ) 映射 到 地 址 空间 中 
从 地 址 空间 中 删除 取 射 文件 


OpenFileMapping 打开 以 前 创建 的 文件 映射 对 象 
图 6-34 Windows 7 中 主要 的 管理 虚拟 内 存 的 API 


6-34 中 的 最 后 四 个 API 函数 用 于 管理 内 存 映 射 文件 。 为 了 映射 一 个 文件 ， 首 先 使 用 
CreateFileMapping 创建 文件 映射 对 象 。 该 函数 返回 一 个 文件 映射 对 象 的 句柄 并 提供 了 输入 文 
件 名 的 选项 以 便 其 他 进程 使 用 。 下 面 两 个 函数 分 别 用 于 映射 和 解 映射 文件 。 一 个 映射 文件 是 
一 个 磁盘 文件 或 者 是 它 的 一 部 分 ,访问 虚拟 地 址 空间 时 可 以 对 映射 文件 读 出 或 者 写 和 人 ， 即 使 
没有 明确 的 IO 操作 。 最 后 一 个 函数 可 以 允许 一 个 文件 被 映射 的 同时 也 被 男 一 个 进程 映射 。 
使 用 这 种 方式 ， 两 个 或 者 多 个 进程 可 以 共享 它们 的 地 址 空间 。 

这 些 API 函数 是 建立 内 存 管理 系统 的 基础 。 举 例 来 说 ， 这 里 有 分 配 和 释放 位 于 一 个 或 者 
多 个 堆 中 的 数据 结构 的 API 函数 。 堆 用 于 存储 动态 创建 和 撤销 的 数据 结构 。 堆 不 进行 垃圾 收 
集 ， 因 此 需要 语言 运行 时 系统 或 用 户 软件 自己 负责 释放 不 再 使 用 的 虚拟 内 存 块 。( 垃圾 收集 是 
指 自动 地 从 系统 中 清除 不 再 使 用 的 数据 结构 。) 堆 在 Windows 7 中 的 用 法 类 似 于 UNIX 系统 中 
的 malloc 函数 ， 所 不 同 的 是 在 Windows 7 中 可 以 有 多 个 独立 管理 的 堆 。 


6.5.3 ”操作 系统 层 MO 举例 


任何 操作 系统 的 核心 功能 都 是 为 用 户 程序 提供 服务 ， 其 中 最 主要 的 是 读 写 文件 这 样 的 IO 服 
务 。UNIX 和 Windows 7 都 为 用 户 程序 提供 了 多 种 不 同 的 IO 服务 。 在 Windows 7 中 有 和 大 部 
分 UNIX 系统 调用 等 价 的 调用 ， 但 反 过 来 就 不 一 定 了 ， 因 为 Windows 7 的 系统 调用 比 UNIX 
多 得 多 ， 而 且 即 使 和 UNIX 调用 相对 应 的 调用 也 比 UNIX 中 的 形式 复杂 得 多 。 

1. UNIX I/O 

UNIX 系统 的 流行 部 分 归功 于 它 的 简单 性 ， 而 简单 性 正 是 其 文件 系统 组 织 的 直接 结果 。 
在 UNIX 中 ,一 个 普通 文件 是 一 个 8 位 字 节 的 线性 序列 ， 从 0 开始 可 以 达到 24-1 个 字 节 。 操 
作 系 统 本 身 并 不 把 任何 记录 结构 强加 给 文件 ， 虽 然 有 许多 用 户 程序 把 ASCI 的 文本 文件 看 成 
是 行 的 序列 ， 每 行 之 后 都 有 行 结束 符 表示 行 结束 。 
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每 个 打开 的 文件 都 有 一 个 相关 的 指针 指向 读 或 者 写 的 下 一 个 字 节 。read 和 write 系统 调用 
从 由 该 指针 标明 的 文件 位 置 开 始 执行 读 和 写 。 在 调用 完成 后 ， 还 需要 把 指针 向 前 移动 操作 的 
字 节 数 。 当 然 ， 也 可 以 通过 给 文件 指针 赋 一 个 特定 的 值 的 方式 来 对 文件 进行 随机 存 取 。 
除了 普通 文件 之 外 ，UNIX 还 支持 用 于 访问 IO 设备 的 特殊 文件 。 一 般 来 说 ， 每 个 IO 
设备 都 有 一 个 或 者 多 个 和 它 相 关 的 特殊 文件 。 程 序 可 以 通过 从 与 IO 设备 相关 的 特殊 文件 进 
行 读 写 来 达到 读 写 IO 设备 的 目的 。 磁 盘 、 打 印 机 、 终 端 和 许多 其 他 的 设备 都 采用 这 种 方式 
管理 。 
主要 的 UNIX 文件 系统 调用 如 图 6-35 所 示 。creat 调用 ( 注意 ， 没 有 字母 e) 用 于 创建 一 
个 新 的 文件 。 实 际 上 ， 它 并 不 是 必需 的 ， 因 为 现在 open 调用 也 可 以 创建 一 个 新 文件 。 如 果 假 
定 文件 只 存在 于 一 个 目录 中 ， 那 么 unlink 调用 的 作用 就 是 把 文件 删除 。 
| FAAM | : 
创建 文件 ; mode 定义 了 保护 模式 
删除 文件 〈 假 定 该 文件 只 有 一 个 链接 ) 
打开 或 者 创建 一 个 文件 并 返回 文件 描述 符 
WA count 个 字 节 到 buffer 中 
从 buffer 中 写 入 count 个 字 节 
根据 offset 和 w 改变 文件 指针 
返回 文件 信息 
改变 文 件 的 保护 模式 
执行 不 同 的 控制 操作 ， 如 锁定 一 个 文件 〔 的 一 部 分 ) 


图 6-35 ”主要 的 UNIX 文件 系统 调用 


open 调用 用 于 打开 已 经 存在 的 文件 ( 并 创建 新 的 文件 )。mode 标志 说 明 如 何 打开 它 ( 用 
于 读 、 用 于 写 等 ) 此 调用 返回 一 个 称 为 文件 描述 符 (file descriptor ) 的 小 整数 用 于 在 以 后 的 
调用 中 标识 此 文件 。 当 文件 不 再 需要 时 ， 就 调用 close 释放 文件 描述 符 。 
实际 的 文件 IO 由 read 和 write 完成 ， 这 两 个 调用 都 有 一 个 文件 描述 符 作为 参数 来 指定 
使 用 的 文件 ， 有 一 个 缓冲 区 用 于 存放 数据 ， 还 有 一 个 
字 节 计数 器 说 明 传输 的 字 节 数 。lseek WPA | aA 
文件 指针 ， 可 以 用 它 对 文件 进行 随机 存 取 。 outfd = creat(”newt”, ProtectionBits); 
stat 返回 和 文件 相关 的 信息 ， 包 括 文件 大 小 、 最 | se gee 
近 访 问 时 间 、 所 有 者 和 其 他 的 信息 。chmod 改变 一 个 Wa Nh 
文件 的 保护 模式 ， 例 如 ， 人 允许 或 者 禁止 除 文件 所 有 者 if (count > 0) write(outfd, buffer, count); 
之 外 的 用 户 读 该 文件 。 最 后 ，fentl 对 文件 进行 各 种 “|) while (count > 0); 
混杂 的 操作 ， 例 如 锁定 和 解锁 一 个 文件 。 文件 ， 
图 6-36 向 我 们 展示 了 主要 的 文件 VO 调用 是 如 ”| cose(outid); 
何 工作 的 。 这 段 代码 非常 简单 而 且 没 有 包括 必要 的 错 ”图 6.36 使 用 UNIX 系统 调用 北 贝 文件 的 





误 检查 。 在 进入 循环 之 前 ， 程 序 打开 一 个 已 有 的 文件 程序 段 。 这 段 程序 是 用 C 语言 纺 
data， 并 创建 一 个 新 的 文件 aewf- 这 两 个 调用 分 别 返 写 的 ， 因 为 Java 语言 向 用 户 隐藏 
回 文件 描述 符 infd 和 outfd。 这 两 个 调用 的 第 二 个 参 了 低级 的 系统 调用 而 我 们 正 要 研 


数 是 保护 位 ，data 文件 是 为 读 而 打开 的 而 newf 文 件 究 低 级 的 系统 调用 
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是 为 写 而 打开 的 。 这 两 个 调用 都 返回 文件 描述 符 。 如 果 open 或 者 creat RKT, 会 返回 一 个 
负 的 描述 符 来 说 明 调 用 失败 了 。 

read 调用 有 三 个 参数 : 一 个 文件 描述 符 、 一 个 缓冲 区 和 一 个 字 节 计数 器 。 此 调用 将 尽力 
把 指定 文件 中 要 求 读 取 的 字 节 读 入 缓冲 区 中 。 实 际 读 取 的 字 节 数 由 count 返回 ， 如 果 文 件 太 
短 ， 它 可 能 会 小 于 bytes。write 调用 则 把 刚刚 读 到 的 字 节 写 人 输出 文件 。 循 环 将 一 直 持 续 到 输 
人 文件 被 读 完 ， 这 时 循环 中 止 ， 两 个 文件 都 被 关闭 。 

在 UNIX 中 文件 描述 符 是 小 整数 (通常 小 于 20 )。 文 件 描述 符 0、1 和 2 是 特殊 的 ， 分 别 
对 应 于 标准 输入 (standard input )、 标 准 输出 (standard output ) 和 标准 错误 standard error )。 
一 般 来 说 ， 它 们 分 别 指 的 是 键盘 、 显 示 器 和 显示 器 ， 但 是 它们 也 可 以 被 用 户 重 定向 到 文件 中 。 
许多 UNIX 程序 从 标准 输入 获得 输入 并 把 处 
理 结果 写 人 标准 输出 。 这 样 的 程序 通常 称 为 
过 滤 程 序 ( filter )。 

和 文件 系统 密切 相关 的 是 目录 系统 。 每 
个 用 户 可 以 有 多 个 目录 ， 每 个 目录 都 可 以 包 
括 文件 和 子 目录 。 一 般 来 说 ，UNIX 系统 都 
配 有 一 个 称 为 根 上 且 录 (root directory) WE 
目录 ,包括 子 目 录 bin ( 用 于 存放 常用 的 执 
行程 序 )、dev( 用 于 存放 特殊 的 VO 设备 文 
件 )、lib (用 于 存放 库 文件 ) 和 usr ( 用 于 存 
放 用 户 目录 )， 如 图 6-37 所 示 。 在 这 个 例子 
H, us 目录 包括 子 目录 ast Al jim. ast 目录 
包括 两 个 文件 一 一 data 和 foo.c， 以 及 一 个 子 
目录 bin ( 包括 四 个 游戏 )。 

如 果 有 多 个 磁盘 或 者 磁盘 分 区 ， 那 么 它 
们 可 以 被 加 载 到 命名 树 上 ， 这 样 所 有 磁盘 上 
的 全 部 文件 都 出 现在 同样 的 目录 层次 中 ,， 通 
过 根 目录 都 可 以 访问 到 它们 。 

可 以 通过 给 出 从 根 目 录 开 始 的 文件 路 
径 (path) 找到 文件 。 路 径 包 括 从 根 目录 到 
该 文件 的 所 有 目录 的 列表 ， 目 录 名 之 间 用 
斜 线 分 隔 。 例 如 ，game2 的 绝对 路 径 名 是 
/usrastybin/game2。 从 根 目录 开始 的 路 径 称 
为 绝对 路 径 。 

每 个 正在 运行 的 程序 在 任何 时 刻 都 有 一 
个 工作 目录 (working directory )。 也 可 以 相 
对 于 工作 目录 指定 路 径 名 ， 这 时 路 径 的 开始 
处 不 用 加 和 斜 线 ， 这 样 可 以 把 它们 和 绝对 路 径 
区 别 开 。 这 样 的 路 径 称 为 相对 路 径 (relative 

ree le ae 

path )。 当 工作 目录 是 /usr/ast 时 ， 可 以 通过 数据 文件 
路 径 bin/game3 来 访问 game3。 用 户 可 以 用 6-37 ”典型 的 UNIX 目录 系统 的 一 部 分 





BERR 


link 系统 调用 创建 一 个 到 其 他 用 户 的 文件 链接 (link )。 存 上面 的 例子 中 ，/usr/ast/bin/game3 
和 usr/jim/jotto 访问 的 是 同一 个 文件 。 为 了 防止 在 目录 系统 中 出 现 循 环 ， 不 允许 链接 到 目录 。 
open 和 creat 调用 都 使 用 绝对 和 相对 路 径 作为 参数 。 

UNIX 中 主要 的 目录 管理 系统 调用 如 图 6-38 所 示 。mkdir 调用 创建 一 个 新 的 目录 ，rmdir 
删除 一 个 已 有 的 〈 空 ) 目录 。 接 下 来 的 三 个 系统 调用 用 于 读 取 目 录 项 。 第 一 个 打开 目录 ， 下 
一 个 读 取 目 录 项 ， 最 后 一 个 关闭 目录 。chdir 用 于 改变 工作 目录 。 


a 
TE 
MTA 
Hina 


该 目录 中 的 下 
河上 

把 工作 目录 改 为 dimame 

创建 目录 项 name2 并 使 其 指向 namel 
EENE mane 





图 6-38 EHH UNIX 目的 管理 调用 
link 创建 一 个 新 的 目录 项 并 把 该 目录 项 指向 一 个 已 有 的 文件 。 比 如 ， 可 以 通过 调用 


link(/ust/ast/bin/game3”, ”/usr/jim/jotto”) 


创建 目录 项 /usrvjinyjotto， 也 可 以 通过 使 用 依赖 于 当前 执行 调用 的 程序 的 相对 路 径 名 来 执行 相 
” 同 功能 的 调用 。unlink 系统 调用 删除 一 条 目录 项 。 如 果 该 文件 只 有 一 个 链接 ， 那 么 它 也 将 被 
删除 。 如 果 此 文件 有 两 个 或 者 更 多 的 链接 ， 文 件 将 被 继续 保留 。 它 并 不 考虑 这 个 将 要 被 删除 
的 链接 是 最 初 的 还 是 后 来 拷贝 的 。 一 旦 创建 了 一 个 链接 ， 它 们 就 都 是 平等 的 ， 也 就 是 说 它 和 
最 初 的 链接 之 间 没 有 任何 区 别 。 执 行 调用 


unlink(”/usr/ast/bin/game3”) 


后 ， 要 想 访问 game3 就 只 能 通过 路 径 /usr/jim/jotto。 我 们 可 以 使 用 这 种 link 和 unlink 的 方式 
在 目录 之 间 移 动 文件 。 

每 个 文件 (包括 目录 ， 因 为 目录 也 是 文件 ) 都 有 一 个 相关 的 位 图 ， 它 用 于 说 明 谁 可 以 访 
问 这 个 文件 。 该 图 包括 三 组 R (Read) W (Write) X (eXecute ) Sk, 第 一 组 用 于 控制 文件 所 
有 者 的 读 、 写 和 执行 权限 ， 第 二 组 用 于 和 文件 所 有 者 同 组 的 其 他 用 户 ， 第 三 组 用 于 所 有 其 他 
用 户 。 比 如 RWX R-X--X 就 意味 着 文件 所 有 者 可 以 读 、 写 和 执行 该 文件 (很 显然 ， 这 是 一 个 
执行 程序 ， 和 否则 执行 权限 应 该 被 关闭 )， 与 此 同时 和 文件 所 有 者 同 组 的 其 他 用 户 可 以 读 和 执行 
该 文件 ， 而 其 他 的 用 户 则 只 能 执行 该 文件 。 在 这 种 权限 限制 下 ， 一 个 陌生 的 用 户 只 能 使 用 该 
程序 而 不 能 偷 走 它 〈 也 就 是 拷贝 )， 因 为 他 没有 读 权限 。 把 用 户 分 配 到 用 户 组 中 的 工作 由 系统 
管理 员 ( 也 称 为 超级 用 户 ，superuser ) 完成 。 超 级 用 户 还 可 以 越过 文件 的 保护 机 制 去 读 、 写 
和 执行 任何 文件 。 

下 面 我 们 简单 地 介绍 一 下 在 UNIX 中 文件 和 目录 的 实现 。 更 完整 的 介绍 ， 参 见 Vahalia 
( 1996 )。 每 个 文件 ( 和 每 个 目录 ， 因 为 目录 也 是 文件 ) 都 有 一 个 相关 的 64 字 节 的 称 为 i 节点 
(i-node) 的 信息 块 。i 节 点 中 的 信息 包括 谁 拥有 该 文件 、 权 限 是 什么 、 到 哪里 去 找到 数据 等 。 
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在 磁盘 上 用 于 文件 的 i 节点 信息 位 于 磁盘 开始 处 的 数字 序列 ， 如 果 磁 盘 被 分 为 多 个 柱 面 组 ， 
它 就 位 于 每 个 组 的 起 始 处 。 这 样 只 要 给 定 一 个 i 节点 号 ，UNIX 系统 就 可 以 通过 简单 计算 它 的 
磁盘 地 址 来 找到 此 i 节点 。 

一 个 目录 项 由 两 部 分 组 成 : 一 个 文件 名 和 一 个 i 节点 号 。 当 一 个 程序 执行 

open(”foo.c”, 0) 
时 ， 系 统 将 使 用 文件 名 “foo.c” 在 当前 目录 中 进行 搜索 来 定位 该 文件 的 i 节点 号 。 找 到 i 节点 
号 之 后 ， 就 可 以 读 入 i 节点 ， 这 时 就 可 以 获得 和 该 文件 有 关 的 所 有 信息 。 

当 使 用 比较 长 的 路 径 名 时 ， 就 重复 执行 上 面 的 步骤 直到 整个 路 径 被 解释 完毕 。 比 如 说 ， 
为 了 寻找 /usr/ast/date 的 i 节点 号 ， 系 统 首先 在 根 目 录 中 寻找 目录 项 usro REJ usr 的 i 节点 号 
之 后 ， 系 统 读 取 该 文件 (在 UNIX 中 ， 目 录 也 是 文件 )。 然 后 在 此 文件 中 寻找 ast 项 ， 这 样 就 
可 以 找到 文件 /usr/ast AY i 节点 号 。 通 过 读 取 文件 /usrast， 系 统 可 以 找到 data 项 ， 这 样 就 得 到 
了 /usr/ast/data 的 i 节点 号 。 知 道 一 个 文件 的 i 节点 号 之 后 ， 就 可 以 从 i 节点 中 得 到 和 此 文件 
相关 的 所 有 信息 。 

不 同系 统 的 i 节点 的 格式 、 内 容 和 设计 是 不 同 的 (尤其 是 在 使 用 网 络 的 时 候 ), 但 是 一 般 
来 说 每 种 i 节点 都 会 包括 下 面 的 项 。 

1) 文件 类 型 ，9 位 RWX 保护 位 和 其 他 的 一 些 位 。 

2) 文件 的 链接 数 ( 也 就 是 用 于 此 文件 的 目录 项 的 个 数 )。 

3) 文件 所 有 者 的 标识 。 

4) 文件 所 有 者 所 在 的 组 。 

5 ) 按 字 节 计算 的 文件 长 度 。 

6) 13 个 磁盘 地 址 。 

7) 最 近 一 次 读 文 件 的 时 间 。 

8 ) 最 近 一 次 写 文件 的 时 间 。 

9) 最 近 一 次 修改 i 节点 的 时 间 

文件 类 型 分 为 普通 文件 、 目 录 文 件 和 两 种 特殊 文件 ， 分 别 用 于 块 结构 的 和 无 结构 的 IO 
设备 。 链 接 数 和 文件 所 有 者 的 标识 前 面 已 经 讨论 过 了 。 文 件 长 度 是 一 个 整数 ， 它 给 出 了 最 高 
字 节 的 值 。 我 们 完全 可 以 创建 一 个 文件 ， 执 行 lseek 操作 到 位 置 1 000 000， 然 后 写 一 个 字 节 ， 
这 样 就 产生 了 一 个 长 度 为 1 000 001 的 文件 。 当 然 ， 此 文件 并 不 需要 给 所 有 不 存在 的 字 节 分 配 
存储 空间 。 

前 10 个 磁盘 地 址 指向 数据 块 。 如 果 块 的 大 小 是 1024 个 字 节 ， 那 么 使 用 这 种 方式 ， 文 件 
最 多 可 以 使 用 10 240 个 字 节 。 地 址 11 指向 一 个 称 为 间接 块 (indirect block ) 的 磁盘 块 ， 它 
包括 更 多 的 磁盘 地 址 。 如 果 块 大 小 为 1024 个 字 节 ， 磁 盘 地 址 为 32 位 ， 那 么 间接 块 可 以 包 
括 256 个 磁盘 地 址 。 使 用 这 种 方式 ,文件 可 以 使 用 10 240+256 x 1024=272 384 个 字 节 。 为 
了 处 理 更 大 的 文件 ， 地 址 12 指向 一 个 包括 256 个 间接 块 地 址 的 块 ， 它 可 以 使 文件 处 理 
272 384+256 x 256 x 1024=67 381 248 个 字 节 。 如 果 这 种 两 次 间接 块 (double indirect block ) 
仍然 不 够 大 ， 地 址 13 则 指向 一 个 三 次 间接 块 (triple indirect block )， 它 包括 256 个 两 次 间接 
块 的 地 址 。 通 过 使 用 直接 寻 址 和 一 次 、 两 次 和 三次 间 址 寻 址 ， 一 共 可 以 寻 址 16 843 018 MR, 
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这 样 从 理论 上 来 说 ,文件 的 最 大 长 度 可 以 达到 17 247 250 432 个 字 节 。 如 果 磁 盘 地 址 不 是 32 位 
而 是 64 位 ， 磁 盘 块 大 小 是 4KB， 那 么 文件 真 的 可 以 很 大 很 大 。 空 闲 的 磁盘 块 保存 在 链表 中 。 
当 需 要 一 个 新 的 磁盘 块 时 ， 就 从 链表 中 摘 下 下 一 块 。 因 此 ， 每 个 文件 使 用 的 磁盘 块 都 是 随机 
分 布 在 磁盘 上 的 。 

为 了 提高 磁盘 VO 的 效率 ， 当 open 打开 一 个 文件 时 ， 它 的 i 节点 将 被 拷贝 到 内 存 中 ， 只 
要 文件 处 于 打开 状态 ， 它 就 会 被 一 直 保 存在 内 存 中 以 方便 存 取 。 另 外 ， 在 内 存 中 还 维护 着 一 
个 最 近 访问 过 的 磁盘 块 的 池 。 因 为 大 部 分 文件 都 是 顺序 读 取 的 ， 因 此 一 次 文件 访问 常常 会 需 
要 和 上 一 次 访问 相同 的 块 。 为 了 增强 效果 ， 系 统 还 会 在 下 一 块 被 引用 之 前 试 着 去 读 它 ， 这 样 
可 以 加 速 处 理 过 程 。 所 有 这 些 优 化 都 是 用 户 不 可 见 的 ; 当 用 户 发 出 read 调用 后 ， 程 序 将 被 挂 
起 直到 请 求 的 数据 出 现在 缓冲 区 中 。 

有 了 以 上 这 些 背 景 知 识 之 后 ， 我 们 现在 可 以 讨论 文件 IO 是 如 何 工作 的 。 执 行 open 调 
用 时 ， 系 统 在 目录 中 寻找 指定 的 路 径 。 如 果 找 到 ， 就 把 i 节点 读 人 内 部 表 中 。read 和 write 
调用 将 使 系统 计算 从 当前 文件 位 置 开始 的 块 号 。 前 10 块 的 磁盘 地 址 总 是 保存 在 内 存 中 (在 i 
节点 中 ) ; 更 高 号 的 块 需要 先 读 取 一 个 或 更 多 的 间接 块 。lseek 只 是 改变 指针 的 当前 位 置 并 不 
执行 任何 VO. 

link 和 unlink 调用 现在 就 很 容易 理解 了 。link 调用 用 它 的 第 一 个 参数 去 寻找 i 节点 号 。 然 
后 为 第 二 个 参数 创建 一 个 目录 项 ， 把 找到 的 第 一 个 文件 的 i 节点 号 放 人 该 项 。 最 后 ， 它 把 i 节 
点 中 的 链接 数 加 1。unlink 调用 删除 一 个 目录 项 并 把 i 节点 中 的 链接 数 减 1。 如 果 是 0， 该 文 
件 将 被 删除 并 把 所 有 的 块 放 回 到 空闲 链表 中 。 

2. Windows 7 I/O 

Windows 7 支持 多 种 文件 系统 ， 其 中 最 重要 的 是 NTFS (NT File System ) 和 FAT ( File 
Allocation Table) 文件 系统 。NTFS 是 专门 为 Windows NT 设计 的 新 的 文件 系统 ; FAT 是 老 
的 MS-DOS 文件 系统 ， 在 Windows 95/98 中 用 的 也 是 FAT (不 过 可 以 支持 长 文件 名 )。 除 
了 在 U 盘 和 相机 的 存储 卡 上 使 用 之 外 ，FAT 文件 系统 已 经 基本 上 过 时 了 ， 下 面 我 们 将 研究 
NTFS. 

NTFS 中 文件 名 的 长 度 最 多 为 255 个 字符 。 文 件 名 采用 统一 字符 编码 Unicode， 这 样 可 以 
允许 那些 居住 在 非 拉 丁 语系 国家 (如 日 本 、 印 度 和 以 色 列 ) 的 用 户 们 使 用 他 们 的 本 国语 言 写 
文件 名 。( 实际 上 ，Windows 7 内 部 使 用 的 都 是 统一 字符 编码 ; 从 Windows 2000 开始 ， 任 何 
国家 都 可 以 使 用 单字 节 版 本 ， 也 可 以 使 用 本 国语 言 ， 因 为 所 有 的 菜单 、 错 误 信息 等 都 保存 在 
依赖 于 国家 的 配置 文件 中 。) NTFS 的 文件 名 是 大 小 写 敏感 的 ( 因此 foo Al FOO 是 不 同 的 )。 
不 幸 的 是 ，Win32 API 并 不 完全 支持 文件 名 和 目录 名 的 大 小 写 的 区 分 ， 因 此 使 用 Win32 的 程 
序 将 不 能 获得 这 一 优点 。 

和 UNIX 一 样 ，Windows 7 中 文件 也 是 字 节 的 线性 序列 ， 最 大 长 度 为 24-1 字 节 。 当 然 
也 有 文件 指针 ， 和 UNIX 不 一 样 的 是 ，Windows 7 中 文件 指针 是 64 位 而 不 是 32 位 ， 这 样 就 
可 以 处 理 最 大 长 度 的 文件 。 用 于 文件 和 目录 管理 的 Win32 API 函数 和 UNIX 中 的 系统 调用 是 
很 相似 的 ， 所 不 同 的 是 Win32 API 函数 具有 更 多 的 参数 而 且 安 全 模式 也 不 一 样 。 打 开 一 个 文 
件 将 返回 一 个 句柄 ， 它 可 以 用 于 读 写 该 文件 。 但 是 和 UNIX 不 同 的 是 ， 句 柄 并 不 是 一 个 小 整 
数 ， 因 为 它们 要 标识 所 有 的 内 核对 象 ， 而 内 核对 象 可 能 会 有 上 百 万 个 。 用 于 文件 管理 的 主要 
的 Win32 API 函数 如 图 6-39 所 示 。 
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图 6-39 ”用 于 文件 输入 /输出 的 主要 的 Win32 API 函数 。 第 二 列 是 最 接近 的 UNIX 系统 调用 


让 我 们 简单 地 看 一 看 这 些 调 用 。CreateFile 用 于 创建 一 个 文件 并 返回 它 的 句柄 。 这 个 API 
函数 同时 也 用 于 打开 现 有 的 文件 因为 这 里 并 没有 open API 函数 。 我 们 没有 列 出 Windows 7 
API 函数 的 参数 ， 因 为 它们 太 复 杂 了 。 举 个 例子 ，CreateFile 有 7 个 参数 ， 如 下 : 

1 ) 指向 将 要 创建 或 打开 的 文件 的 文件 名 的 指针 。 

2 ) 区 分 文件 是 读 打 开 、 写 打开 还 是 可 以 同时 读 写 的 标志 位 。 

3 ) 是 否 允 许多 个 进程 同时 打开 文件 的 标志 位 。 

4) 指向 安全 描述 符 的 指针 ， 说明 谁 可 以 访问 该 文件 。 

5) 标志 ， 用 于 说 明 如 果 文 件 存 在 或 者 不 存在 时 应 该 采取 什么 操作 。 

6 ) 用 于 说 明 档 案 、 压 缩 等 属性 的 标志 位 。 

7 ) 来 自 文件 的 需要 克隆 的 属性 的 新 文件 句柄 。 

图 6-39 中 接 下 来 的 6 个 API 函数 和 相应 的 UNIX 系统 调用 非常 相似 。 需 要 注意 的 是 ， 
Windows 7 IO 总 体 上 是 异步 的 ， 尽 管 一 个 进程 可 以 等 待 VO 完成 。 最 后 两 个 函数 可 以 锁定 或 
者 解锁 一 个 文件 的 区 域 来 保证 进程 可 以 用 排他 的 方式 访问 文件 。 

我 们 可 以 使 用 这 些 函 数 写 一 个 和 图 6-36 中 的 UNIX 过 程 很 类 似 的 拷贝 文件 的 过 程 。 该 过 
程 (没有 任何 错误 检查 ) 如 图 6-40 所 示 。 它 在 设计 时 模仿 了 图 6-36 中 的 结构 。 而 在 实际 使 用 
中 ， 程 序 员 并 不 需要 编写 拷贝 文件 的 程序 ， 因 为 有 一 个 API 函数 叫做 CopyFile， 该 函数 执行 
的 功能 和 下 面 的 程序 很 类 似 。 


广 打开 文件 用 于 输入 输出 ,/ 

inhandle = CreateFile(“data“ GENERIC_READ, 0, NULL, OPEN_EXISTING, 0, NULL); 

outhandle = CreateFile(”newf’, GENERIC_WRITE, 0, NULL, CREATE_ALWAYS, 
FILE_ATTRIBUTE_NORMAL, NULL); 


s = ReadFile(inhandle, buffer, BUF_SIZE, &count, NULL); 
if (S > 0 && count > 0) WriteFile(outhandle, buffer, count, &ocnt, NULL); 
} while (s > 0 && count > 0); 


广 关 闭 文 件 .*/ 
CloseHandle(inhandle); 
CloseHandle(outhandle); 
图 6-40 使 用 Windows 7 API 函数 找 贝 文件 的 程序 段 。 这 段 程序 是 用 C 语言 编写 的 ， 
因为 Java 语言 向 用 户 隐 藏 了 低级 的 系统 调用 而 我 们 正 要 研究 低级 的 系统 调用 
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Windows 7 支持 层次 型 的 文件 系统 ， 这 一 点 和 UNIX 很 类 似 。 所 不 同 的 是 在 部 件 名 之 间 
的 分 隔 符 是 “\"， 而 不 是 “/”"， 这 是 从 MS-DOS 中 继承 来 的 。Windows 7 中 也 有 当前 工作 目 
录 的 概念 ， 路 径 名 也 可 以 是 相对 的 或 者 绝对 的 。 和 UNIX 的 一 个 重要 的 区 别 是 ， 在 UNIX 中 
位 于 不 同 的 磁盘 和 不 同 的 计算 机 上 的 文件 系统 可 以 装配 到 一 个 单一 的 目录 树 下 ， 这 样 就 可 以 
对 软件 隐藏 磁盘 结构 。 早 期 的 Windows 版 本 ( Windows 2000 之 前 的 版 本 ) 不 支持 这 一 特性 ， 
因此 绝对 路 径 名 必须 从 一 个 标识 逻辑 驱动 器 的 盘 符 开始 ， 比 如 C:\windows\system\foo.dll。 从 
Windows 2000 开始 ,增加 了 和 UNIX 类 似 的 文件 系统 装配 特性 。 
主要 的 目录 管理 API 函数 如 图 6-41 所 示 ， 图 中 也 给 出 了 和 它们 最 相似 的 UNIX 系统 调 
用 。 这 些 函 数 的 意义 一 目 了 然 。 500 


sel 





x 
FindNextFile 读 人 目录 的 下 一 项 
MoveFile | | ee eee 


图 6-41 用 于 目录 管理 的 主要 的 Win32 API 函数 。 第 二 列 是 最 接近 的 UNIX 系统 调用 (如 果 有 ) 


Windows 7 具有 比 UNIX 更 精细 的 安全 机 制 。 虽 然 在 Windows 7 中 有 数 百 个 和 安全 相 
关 的 API 函数 ， 下 面 的 简短 描述 还 是 可 以 给 我 们 一 个 基本 的 概况 。 当 用 户 登 录 的 时 候 ， 操 
作 系 统 给 他 或 者 她 的 初始 化 进程 分 配 了 一 个 访问 令 牌 ( access token )。 访 问 令 牌 包括 用 户 的 
SID ( Security ID )、 用 户 属于 的 安全 组 的 列表 、 任 何 特殊 的 可 用 的 特权 和 一 些 其 他 项 。 访 问 
令 牌 集中 了 所 有 的 安全 信息 ， 这 使 它们 易于 访问 。 该 进程 创建 的 所 有 进程 都 继承 相同 的 访问 
令 牌 。 

创建 任何 对 象 时 都 要 提供 的 一 个 参数 是 安全 描述 符 ( security descriptor )。 安 全 描述 符 包 
括 一 张 访问 控制 表 ( Access Control List, ACL )。 访问 控制 表 中 的 每 一 项 表示 人 允许 或 者 禁止 某 
BE SID 或 者 组 对 该 对 象 的 某 些 操作 。 例 如 ， 一 个 文件 可 以 有 这 样 一 个 安全 描述 符 : 完全 禁止 
Elinor 访问 该 文件 ，Ken 可 以 读 此 文件 ，Linda 可 以 对 文件 进行 读 和 写 ，XYZ 组 的 所 有 用 户 都 
可 以 读 此 文件 的 长 度 ， 但 不 能 执行 任何 其 他 的 操作 。 除 非 明 确 列 出 来 ， 和 否则 缺 省 对 任何 用 户 
都 禁止 访问 。 

当 进程 试图 用 它 打 开 对 象 时 获得 的 句柄 对 该 对 象 执行 某 些 操 作 时 ， 安 全 管理 器 将 获得 进 
程 的 访问 令 牌 并 首先 检查 对 象 安 全 描述 符 的 诚信 级 别 和 令 牌 的 诚信 级 别 是 否 一 致 。 对 于 具有 
更 高 诚信 级 别 的 对 象 进程 则 不 能 获得 具有 写 权 限 的 句柄 。 诚 信 级 别 主 要 用 于 限制 Web 浏览 器 
加 载 的 代码 不 能 修改 系统 。 完 成 诚信 级 别 检查 之 后 ， 安 全 管理 器 依次 检查 ACL HRM, AB 
找到 一 个 和 调用 者 的 SID 或 者 调用 者 所 在 组 相 匹 配 的 表 项 ， 就 将 按照 该 表 项 的 内 容 执 行 访问 
操作 。 因 此 , 在 ACL 中 ,禁止 访问 的 表 项 通常 被 放 在 允许 访问 的 表 项 的 前 面 ， 在 这 种 情况 
下 ， 如 果 一 个 用 户 被 明确 定义 禁止 访问 ， 他 就 不 可 能 通过 成 为 有 访问 权限 的 组 的 成 员 来 获得 
访问 权限 。 安 全 描述 符 还 包括 审计 对 象 的 访问 信息 。 

下 面 我 们 快速 地 讨论 Windows 7 中 文件 和 目录 的 实现 。 每 个 磁盘 都 被 静态 地 分 成 自 包含 
的 卷 ， 卷 的 概念 和 UNIX 中 分 区 的 概念 一 样 。 每 个 卷 都 包括 文件 、 目 录 位 图 和 其 他 用 于 管理 
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SCA a BABE. FES EARLE (cluster) 的 线性 序列 。 在 一 个 卷 中 徐 的 大 小 是 固 
定 的 ， 可 以 从 512 个 字 节 到 64KB， 具 体 的 大 小 取决 于 卷 的 大 小 。 簇 使 用 从 卷 的 起 始 位 置 开 始 
计算 的 64 位 的 偏 移 量 进行 引用 。 

每 个 卷 的 主要 的 数据 结构 是 主 文件 表 (Master File Table，MFT )， 卷 中 的 每 个 文件 和 目 
录 在 表 中 都 有 一 项 。 这 些 表 项 和 UNIX 中 的 i 节点 很 类 似 。MEFT 本 身 是 一 个 文件 ， 它 可 以 放 
在 卷 的 任何 位 置 。 如 果 卷 的 开始 有 坏 的 磁盘 块 (通常 MPT 存放 在 卷 的 起 始 部 分 )， 那 么 这 个 
特性 是 很 有 用 的 。UNIX 系统 通常 在 卷 的 起 始 部 分 存储 一 定 的 关键 信息 ， 这 种 情况 下 (虽然 
WORE) 如 果 这 些 磁盘 块 发 生 不 可 恢复 的 损坏 ， 那 么 整个 卷 就 必须 重新 复位 。 

MFT 如 图 6-42 所 示 。 它 有 一 个 包括 卷 信息 的 头 部 ， 比 如 指向 根 目录 的 指针 、 引 导 文 件 、 
坏 区 文件 、 空 闲 链表 管理 等 。 头 部 之 后 是 每 个 文件 和 每 个 目录 一 个 的 表 项 ， 除 了 簇 大 小 是 
2KB 或 者 更 大 之 外 ， 表 项 的 大 小 为 1KB。 每 个 表 项 都 包括 和 文件 或 目录 相关 的 所 有 的 元 数据 
(管理 信息 )。 表 项 可 以 采用 几 种 不 同 的 格式 ， 其 中 一 种 如 图 6-42 所 示 。 


标准 信息 。 文件 名 ”MS-DOS 名 ”安全 数据 


一 个 文件 的 MFT 项 


图 6-42 Windows 7 主 文件 表 


标准 的 信息 域 包 括 POSIX 需要 的 时 间 戳 信息 、 硬 链接 计数 器 、 只 读 和 归档 位 等 。 这 是 
一 个 固定 长 度 的 域 而 且 总 是 存在 。 文 件 名 的 长 度 是 可 变 的 ， 最 大 可 以 有 255 个 Unicode 字符 。 
为 了 使 老 的 16 位 的 程序 能 够 访问 这 样 的 文件 ， 还 可 以 给 文件 一 个 MS-DOS 名 ，MS-DOS 文 
件 名 由 8 个 字母 或 者 数字 组 成 ， 后 面 还 可 以 加 一 个 点 和 最 多 三 个 字母 或 者 数字 的 扩展 名 。 如 
果 文 件 名 满足 MS-DOS 的 8+3 命名 规则 ， 就 不 需要 第 二 个 MS-DOS 文件 名 了 。 

接 下 来 是 安全 信息 。 在 NT 4.0 和 4.0 以 前 的 版 本 中 ， 安 全 域 包括 实际 的 安全 描述 符 。 从 
Windows 2000 开始 ， 所 有 的 安全 信息 都 集中 在 一 个 单独 的 文件 中 ， 安 全 域 只 要 指向 该 文件 的 
相关 部 分 即 可 。 

如 果 是 小 文件 ,文件 数据 本 身 就 保存 在 MFT 项 中 ， 这样 可 以 节省 访问 磁盘 的 时 间 。 这 种 
方法 称 为 立即 文件 (immediate file ) ( Mullender 和 Tanenbaum，1984 )。 对 于 某 些 比较 大 的 文 
件 ， 该 域 包括 指向 包含 数据 的 簇 的 指针 ， 更 常见 的 做 法 是 使 用 一 系列 连续 的 簇 ， 这 样 只 要 使 
用 一 个 徐 呈 和 一 个 长 度 就 可 以 表示 任意 大 小 的 文件 数据 。 如 果 一 个 MFT 项 不 能 装 下 所 有 的 信 
息 ， 可 以 给 它 链接 上 一 个 或 者 更 多 额外 的 项 。 

最 大 的 文件 长 度 是 2“ 字 节 。 为 了 让 你 能 明白 2% 字 节 ( 即 2 位 ) 的 文件 有 多 大 ， 我们 
这 样 的 一 个 文件 用 二 进 制 方式 写 出 来 ， 每 位 0 或 者 1 占 1mm 空间 。 那 么 29mm 将 有 15 光 年 
长 ， 这 一 距离 远 远 超出 了 太阳 系 ， 可 以 到 人 马 座 的 阿尔 法 星 跑 个 来 回 。 
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NTFS 文件 系统 还 有 许多 其 他 有 趣 的 特性 ， 包 括 支持 每 个 文件 多 数据 流 、 加 密 、 数 据 压 
缩 和 使 用 原子 事务 的 容错 。 关 于 NTFS 的 其 他 信息 可 以 参考 Russinovich 和 Solomon (2005 )。 


6.5.4 ”进程 管理 实例 


UNIX 和 Windows 7 都 可 以 把 一 个 任务 分 成 多 个 进程 ， 这 样 它们 就 可 以 并 行 REA 
并 行 ) 执行 而 且 可 以 互相 通信 ， 就 像 前 面 讨论 的 生产 者 和 消费 者 例子 那样 。 本 节 将 讨论 在 
UNIX 和 Windows 7 中 如 何 管理 进程 。 这 两 个 系统 都 支持 在 一 个 单独 的 进程 中 运行 多 个 并 行 
的 线程 ， 因 此 本 节 还 将 讨论 线程 。 

1. UNIX 进程 管理 

UNIX 进程 可 以 在 任何 时 刻 通 过 执行 fork 系统 调用 创建 一 个 和 自己 一 模 一 样 的 子 进程 。 
原来 的 进程 称 为 父 进程 ( parent )， 新 进程 称 为 子 进程 ( child )。 在 fork 刚刚 执行 完成 时 ， 两 
个 进程 是 完全 一 样 的 ， 甚 至 共享 相同 的 文件 描述 符 。 从 这 以 后 ， 每 个 进程 都 按照 自己 的 方式 
运行 ， 做 它们 自己 想 做 的 事情 ， 彼 此 之 间 再 也 没有 关系 。 


在 许多 情况 下 ， 子 进程 按照 某 种 方式 修改 文件 描述 符 然 后 执行 exec 系统 调用 ，exec 使 用 


参数 中 定义 的 执行 文件 的 程序 和 数据 蔡 换 进程 的 程序 和 数据 。 例 如 ， 当 用 户 在 终端 上 敲 入 xyz 
命令 时 ， 命 令 解释 程序 (shell) 将 执行 fork 调用 创建 一 个 子 进程 。 该 子 进程 再 执行 exec 调用 
运行 xyz 程序 。 

这 两 个 进程 并 行 执行 (无 论 子 进程 有 没有 执行 exec )， 除 非 父 进程 希望 在 子 进程 结束 后 
再 继续 执行 。 如 果 父 进程 想 等 待 子 进程 结束 ， 它 可 以 调用 wait 或 者 waitpid 系统 调用 ， 这 两 
个 调用 会 把 父 进程 挂 起 直到 子 进程 执行 exit。 子 进程 结束 后 ， 父 进程 继续 执行 。 

进程 可 以 根据 需要 执行 fork 调用 许多 次 ,调用 的 结果 是 一 棵 进程 树 。 比 如 说 ， 在 图 6-43 
rh, PERE A 执行 了 两 次 fork, 创建 了 两 个 子 进程 B 











和 Cs。 B 也 执行 了 两 次 fork,C 执行 了 一 次 fork, es 
最 后 就 得 到 了 由 6 个 进程 组 成 的 进程 树 。 

UNIX 进程 可 以 使 用 管道 (pipe ) 互相 通信 。 (B) (C) A 的 子 进 各 
管道 是 一 种 缓冲 区 ， 一 个 进程 可 以 向 其 中 写 入 数据 
流 而 另 一 个 进程 可 以 从 中 取出 数据 。 从 管道 中 取出 G E) O A 的 孙 进 各 


字 节 的 顺序 总 是 和 它们 写 人 的 顺序 一 致 的 。 随 机 存 图 6.43 UNIX 中 的 进程 树 
取 是 不 可 能 的 。 管 道 并 不 保存 写 信 消息 的 边界 ， 因 
此 如 果 一 个 进程 往 管道 中 写 了 4 次 128 字 节 的 数据 而 另 一 个 进程 读 了 一 次 512 字 节 ， 那 么 读 
进程 将 一 次 拿 走 所 有 的 数据 ， 而 不 考虑 它们 是 由 多 次 操作 写 人 的 。 

在 System V 和 Linux 中 ， 进 程 之 间 还 可 以 通过 消息 队列 (message queue ) 进行 通信 。 进 
程 可 以 创建 一 个 新 的 消息 队列 或 者 通过 msgget 打开 一 个 已 有 的 消息 队列 。 使 用 消息 队列 时 ， 
进程 可 以 通过 msgsnd 发 送 消息 ， 通 过 msgrecv 接收 消息 。 通 过 这 种 方式 发 送 消息 和 管道 有 些 
不 同 。 首 先 ， 消 息 队 列 方式 保存 消息 边界 ， 而 管道 只 是 一 个 字 节 流 。 其 次 ， 消 息 有 优先 权 ， 
因此 比较 紧急 的 消息 可 以 比 不 太 重 要 的 消息 得 到 优先 处 理 。 第 三 ， 消 息 是 有 类 型 的 ， 如 果 愿 
意 ， 在 msgrecv 中 可 以 定义 特定 的 类 型 。 

两 个 或 者 多 个 进程 之 间 通 信 的 另 一 种 机 制 是 共享 它们 各 自 地 址 空间 中 一 个 区 域 。 在 
UNIX 中 ， 共 享 内 存 是 通过 把 所 有 的 共享 进程 的 虚拟 地 址 空间 映射 到 相同 的 页 中 实现 的 。 用 
这 种 方式 ， 如 果 一 个 进程 在 共享 内 存 中 写 ， 其 他 进程 可 以 立刻 见 到 。 这 种 机 制 提 供 了 一 种 带 
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宽 非 常 高 的 进程 间 通 信 方 式 。shmat 和 shmop 这 样 的 系统 调用 就 是 用 于 共享 内 存 的 。 

System V 和 Linux 中 还 提供 了 信和 号 量 机 制 。 信 和 号 量 在 生产 者 和 消费 者 的 例子 中 已 经 讨论 
过 了 。 

所 有 POSIX 兼容 的 UNIX 系统 都 有 在 一 个 进程 中 运行 多 个 控制 线程 的 能 力 。 这 些 控制 
线程 通常 直接 称 作 线 程 ( thread )， 就 像 是 轻 量 级 的 进程 ， 它 们 共享 一 个 共同 的 地 址 空间 以 
及 和 地 址 空间 相关 的 所 有 东西 ， 如 文件 描述 符 、 环 境 变 量 和 重要 的 时 钟 。 但是， 每 个 线程 
有 自己 的 程序 计数 器 、 寄 存 器 和 栈 。 当 一 个 线程 发 生 阻塞 时 ( 比如 停 下 来 等 待 1/0 完成 或 
者 等 待 其 他 的 事件 发 生 )， 同 一 个 进程 中 的 其 他 线程 还 可 以 继续 运行 。 同 一 个 进程 中 的 两 个 
线程 的 运行 方式 和 生产 者 / 消费 者 很 类 似 ， 但 是 和 两 个 共享 一 个 缓冲 区 的 单线 程 的 进程 不 一 
样 。 不 同 之 处 在 于 ， 在 后 一 种 情况 下 ， 每 个 进程 都 有 自己 的 文件 描述 符 等 ， 而 在 前 一 种 情 
况 下 所 有 这 些 都 是 共享 的 。 我 们 已 经 在 前 面 的 生产 者 和 消费 者 例子 中 看 到 了 如 何 使 用 Java 
的 线程 。 通 常 Java 运行 时 系统 把 它 的 每 个 线程 都 对 应 一 个 操作 系统 线程 ， 但 是 这 一 点 无 关 
紧要 。 

为 了 举例 说 明 线 程 用 在 哪里 ， 让 我 们 考虑 一 下 WWW 服务 器 。 这 种 服务 器 可 能 会 在 内 
存 中 保存 一 个 常用 Web 页 的 高 速 缓存 。 如 果 请 求 的 Web 页 在 高 速 缓存 中 ， 该 Web 页 就 立 
即 返 回 。 否 则 ， 再 从 磁盘 调 入 该 页 。 不 幸 的 是 ， 等 待 磁盘 要 花费 很 长 时 间 (一 般 是 20% 
秒 )， 在 这 段 时 间 内 进程 将 阻塞 ， 不 能 接收 任何 到 来 的 请 求 ， 即 使 请 求 的 Web 页 就 在 高 速 组 
存 中 。 

解决 的 办 法 是 在 一 个 服务 器 进程 中 运行 多 个 线程 ， 所 有 这 些 线程 共享 同一 个 Web 页 高 速 
缓存 。 当 一 个 线程 阻塞 时 ， 其 他 的 线程 还 可 以 处 理 新 的 请 求 。 为 了 防止 出 现 所 有 的 线程 都 阻 
塞 的 情况 ， 我 们 可 以 同时 运行 多 个 服务 器 进程 ， 但 这 样 做 可 能 需要 增加 内 容 相同 的 高 速 缓存 ， 
这 样 就 浪费 了 昂贵 的 内 存 。 / 

POSIX (P1003.1C ) 中 定义 了 称 为 pthread 的 UNIX 的 线程 标准 。 该 标准 中 包括 管理 线程 
和 同步 线程 的 系统 调用 。 它 没有 定义 线程 是 由 内 核 来 管理 还 是 完全 在 用 户 空间 中 运行 。 最 常 
用 的 线程 调用 如 图 6-44 所 示 。 


在 调用 者 的 地 址 空间 中 创建 一 个 新 线程 
FERAE 
















K 6-44 POSIX 中 主要 的 线程 调用 
让 我 们 简单 地 看 一 看 图 6-44 中 的 线程 调用 。 第 一 个 调用 pthread_create 用 于 创建 一 个 新 
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进程 。 如 果 该 调用 成 功 地 完成 ， 那 么 调用 者 的 地 址 空间 里 将 会 多 一 个 线程 。 如 果 一 个 线程 已 
经 完成 了 所 有 的 工作 想 退 出 ， 它 就 调用 pthread_exit。 一 个 线程 可 以 通过 调用 pthread join 来 
等 待 另 一 个 线程 结束 。 如 果 被 等 待 的 线程 已 经 结束 ，pthread_ join 调用 将 立即 返回 ， 和 否则 它 将 
阻塞 。 

进程 之 间 可 以 通过 互 斥 锁 ( mutex ) 进行 同步 。 一 般 来 说 ， 互 斥 锁 用 于 锁定 某 些 资源 ， 比 
如 一 个 由 两 个 线程 共享 的 缓冲 区 。 为 了 保证 在 同一 时 刻 只 有 一 个 线程 能 够 访问 共享 资源 ， 线 
程 在 访问 资源 之 前 先 锁 上 互 斥 锁 ， 访 问 完 成 后 再 解锁 。 只 要 所 有 的 线程 都 遵守 这 一 协议 ， 就 
可 以 避免 竟 争 条 件 。 互 斥 锁 就 像 一 个 二 进 制 的 信号 量 ， 也 就 是 一 个 只 能 取 值 0 和 1 的 信号 量 。 
之 所 以 叫做 “ 互 斥 锁 ” 是 因为 它 的 目的 是 为 了 保证 对 某 些 资源 的 互 斥 访问 。 

系统 调用 pthread_ mutex_ init 和 pthread mutex_destroy 分 别 用 于 创建 和 撤销 互 斥 锁 。 一 
个 互 斥 锁 可 以 有 两 种 状态 : 锁定 的 和 未 锁定 。 当 一 个 线程 试图 锁 一 个 未 锁定 的 互 斥 锁 时 ( 通 
过 使 用 pthread-mutex_lock )， 互 斥 锁 进 入 锁定 状态 ， 线 程 继续 执 行 。 但 是 ， 如 果 一 个 线程 试 
图 锁 一 个 已 经 进入 锁定 状态 的 互 斥 锁 ， 它 就 会 阻塞 。 当 锁定 的 线程 完成 工作 后 ， 它 会 调用 
pthread_mutex_unlock 来 解 开 相应 共享 资源 的 互 斥 锁 。 

互 斥 锁 一 般 用 于 短 时 间 的 锁定 ， 比 如 保护 一 个 共享 变量 。 人 它们 一 般 不 用 于 长 时 间 的 同步 ， 
比如 等 待 一 个 磁带 驱动 器 变 为 空闲 。 如 果 需 要 长 时 间 的 同步 ， 应 该 提供 条 件 变量 ( condition 
variable )。 条 件 变量 的 创建 和 撤销 分 别 通 过 系统 调用 pthread cond init 和 pthread cond_ 
destroy 来 实现 。 

条 件 变量 的 用 法 是 一 个 线程 等 待 ， 而 另 一 个 线程 向 它 发 信号 。 比 如 说 ， 如 果 一 个 线程 发 
现 需要 使 用 的 磁带 驱动 器 处 于 忙 状 态 ， 它 就 在 一 个 所 有 线程 都 知道 的 和 磁带 驱动 器 有 关 的 条 
件 变 量 上 执行 pthread_cond wait 调用 。 当 使 用 磁带 驱动 器 的 线程 最 终 完成 工作 后 (可 能 在 一 
个 小 时 后 )， 执 行 pthread_cond_signal 系统 调用 来 使 等 待 条 件 变量 的 线程 (如果 有 的 话 ) 中 的 
一 个 继续 执行 。 如 果 没 有 线程 等 待 ， 该 信号 将 丢失 。 条 件 变量 不 像 信号 量 一 样 计数 。 在 线程 、 
互 斥 锁 和 条 件 变量 上 还 定义 了 一 些 其 他 操作 。 

2. Windows 7 的 进程 管理 

Windows 7 也 支持 多 进程 ， 进 程 之 间 可 以 通信 和 同步 。 每 个 进程 都 包括 至 少 一 个 线程 。 
无 论 在 单 处 理 机 ( 单 CPU 的 计算 机 ) 上 还 是 在 多 处 理 机 上 (多 CPU 的 计算 机 )， 进 程 和 线程 
(可 以 由 进程 本 身 调度 ) 共同 提供 了 一 个 非常 通用 的 管理 并 行 性 的 工具 集合 。 

创建 新 进程 可 以 使 用 API 函数 CreateProcess。 该 函数 有 10 个 参数 ， 每 个 参数 都 有 许 
多 选项 。 这 种 设计 明显 比 UNIX 的 机 制 要 复杂 得 多 ，UNIX 中 fork 调用 没有 参数 ，exec 也 
只 有 3 个 参数 : 指向 执行 文件 名 的 指针 、 分 析 过 的 命令 行 参 数 数 组 和 环境 串 。 简 单 地 说 ， 
CreateProcess 的 10 个 参数 如 下 : 

1) 指向 执行 文件 名 的 指针 。 

2) 命令 行 本 身 (没有 分 析 过 的 )。 

3) 指向 进程 安全 描述 符 的 指针 。 

4 ) 指向 初始 化 线程 的 安全 描述 符 的 指针 。 

5 ) 一 个 用 来 说 明 新 进程 是 否 继 承 了 创建 者 的 句柄 的 位 。 

6) 各 种 杂 类 标志 ( 比如 ， 错 误 模式 、 优 先 级 、 调 试 、 控 制 台 等 )。 

7) 指向 环境 串 的 指针 。 

8) 指向 新 进程 当前 工作 目录 名 的 指针 。 


364 OF 





9 ) 指向 描述 屏幕 上 初始 窗口 的 结构 的 指针 。 

10 ) 指向 包括 18 个 返回 给 调用 者 的 值 的 结构 的 指针 。 

Windows 7 的 进程 之 间 没 有 父子 关系 或 者 任何 其 他 关系 。 所 有 被 创建 的 进程 都 是 平等 的 。 
但 是 ， 在 返回 给 创建 者 进程 的 18 个 参数 中 有 一 个 是 新 进程 的 句柄 ( 拥有 句柄 就 拥有 了 对 新 进 
程 的 相当 大 的 控制 权 )， 因 此 ， 谁 拥有 谁 的 句柄 就 构成 了 隐 含 的 层次 关系 。 尽 管 这 些 句柄 不 能 
直接 被 传递 给 其 他 进程 ， 但 是 一 个 进程 可 以 为 另 一 个 进程 创建 一 个 合适 的 句柄 并 把 这 个 句柄 
给 它 ， 因 此 这 种 隐 含 的 进程 之 间 的 层次 关系 并 不 会 持续 很 久 。 

在 Windows 7 中 ， 每 个 刚 被 创建 的 进程 都 只 有 一 个 线程 ， 但 是 进程 可 以 自己 创建 更 多 的 
线程 。 创 建 线程 比 创建 进程 简单 : 函数 CreateThread 只 有 6 个 参数 而 不 是 创建 进程 时 的 10 个 
参数 。 这 6 个 参数 是 : 安全 描述 符 、 栈 大 小 、 起 始 地 址 、 一 个 用 户 定义 的 参数 、 线 程 的 初始 
状态 〈 就 绪 或 者 阻塞 ) 和 线程 的 ID 号 。 创 建 线程 的 工作 由 操作 系统 内 核 来 完成 ， 因 此 操作 系 
统 清楚 地 知道 线程 的 状态 (也 就 是 说 ， 在 Windows 7 中 线程 并 不 像 在 其 他 系统 中 那样 是 在 用 
户 空间 中 实现 的 )。 

当 操 作 系 统 内 核 执 行 任务 调度 时 ， 它 不 仅 要 选择 运行 哪个 进程 而 且 还 要 决定 运行 该 进程 
中 的 哪个 线程 。 这 意味 着 内 核 总 是 知道 哪些 线程 处 于 就 绪 状 态 ， 哪 些 线程 处 于 阻塞 状态 。 由 
于 线程 是 内 核 级 的 对 象 ， 因 此 它们 有 安全 描述 符 和 和 句柄。 一 个 线程 的 句柄 可 以 传递 给 另 一 个 
进程 ， 因 此 就 有 可 能 出 现 一 个 进程 控制 另 一 个 进程 中 的 线程 的 情况 。 这 种 特性 很 有 用 ， 比 如 
可 以 用 于 实现 调试 器 。 

进程 之 间 可 以 使 用 多 种 方式 通信 ， 包 括 管道 、 命 名 管道 、 套 接 字 、 远 程 过 程 调用 和 共享 
文件 。 管 道 有 两 种 模式 : 字 节 模式 和 消息 模式 ， 模 式 在 创建 管道 时 进行 选择 。 字 节 模 式 的 管 
if Ml UNIX 中 的 管道 是 一 样 的 。 消 息 模式 的 管道 和 字 节 模式 的 管道 很 类 似 ， 不同 之 处 只 是 消 
息 之 间 有 边界 ， 这 样 如 果 写 4 次 128 字 节 的 话 ， 只 能 读 4 次 128 字 节 而 不 能 像 字 节 模式 那样 
一 次 读 出 512 字 节 消息 。 命 名 管道 也 有 两 种 和 普通 管道 相同 的 模式 。 命 名 管道 可 以 在 网 络 上 
使 用 而 普通 管道 则 不 行 。 

套 接 字 也 很 像 管道 ， 只 不 过 它们 通常 用 于 连接 不 同 计算 机 上 的 进程 。 当 然 它们 也 可 以 用 
于 连接 同一 台 计 算 机 上 的 进程 。 一 般 来 说 ， 使 用 套 接 字 进 行 计算 机 之 间 的 通信 上 比 使 用 管道 或 
者 命名 管道 要 更 方便 一 些 。 

远程 过 程 调用 是 这 样 一 种 方式 : 进程 A 调用 进程 B 中 的 一 个 过 程 并 返回 结果 ， 整 个 过 程 
就 好 象 是 调用 A 自己 的 过 程 一 样 。 远 程 过 程 调用 的 参数 传递 有 一 些 限制 。 例 如 ， 把 一 个 指针 
传递 给 另 一 个 进程 是 没有 意义 的 。 相 反 ， 指 向 的 对 象 则 必须 打包 并 发 给 目的 进程 。 

最 后 一 种 方式 ， 进 程 可 以 通过 同时 映射 到 同一 个 文件 来 共享 内 存 。 一 个 进程 执行 的 所 
有 写 操 作 可 以 立即 出 现在 其 他 进程 的 地 址 空间 中 。 使 用 这 种 机 制 ， 可 以 很 容易 地 实现 生产 
者 一 一 消费 者 例子 中 的 共享 缓冲 区 。 

Windows 7 在 提供 多 种 进程 间 通 信 机 制 的 同时 ， 还 提供 了 多 种 同步 机 制 ， 包 括 信 号 量 、 
互 斥 锁 、 临 界 区 和 事件 。 所 有 这 些 机 制 都 是 在 线程 级 运行 的 ， 而 不 是 进程 级 ， 这 样 当 一 个 
线程 在 某 个 信和 号 量 上 阻塞 时 ， 同 一 进程 中 的 其 他 线程 (如果 有 的 话 ) 可 以 不 受 影响 地 继续 
运行 。 

API 函数 CreateSemaphore 创建 一 个 信号 量 ， 该 函数 可 以 给 创建 的 信号 量 初始 化 一 个 
值 ， 还 可 以 定义 一 个 最 大 值 。 信 号 量 是 内 核 级 的 对 象 ， 因 此 拥有 安全 描述 符 和 和 句柄。 可 以 使 
用 函数 DuplicateHandle 拷贝 一 个 信号 量 的 句柄 并 把 它 传递 给 另 一 个 进程 ， 这 样 多 个 进程 就 
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可 以 在 同一 个 信号 量 上 执行 同步 操作 。 当 创建 信号 量 时 可 以 给 它们 命名 ， 以 便 其 他 进程 可 以 
通过 名 字 打 开 它们 。 通 过 使 用 up 和 down 调用 可 以 操纵 信号 量 ， 它 们 还 具有 特有 的 名 字 叫 做 
ReleaseSemaphore (up ) 和 WaitForSingleObject (down )。 可 以 给 WaitForSingleObject 一 个 超 
时 ， 这 样 调用 线程 最 终 会 释放 ， 即 使 信号 量 保持 在 0 ( 虽然 时 钟 带 来 了 新 的 竞争 )。 

互 斥 锁 也 是 用 于 同步 的 内 核 级 对 象 ， 但 是 比 信号 量 简单 ， 因 为 它们 不 使 用 计数 器 。 从 本 
EEH, CMRE, API 函数 WaitForSingleObject 用 于 加 锁 ，ReleaseMutex ATES AN 
信和 号 量 句 柄 一 样 ， 互 斥 锁 句 柄 也 可 以 拷贝 并 在 进程 之 间 传 递 ， 这 样 不 同 进程 中 的 线程 就 可 以 
访问 同一 个 互 斥 锁 。 

第 三 种 同步 机 制 是 基于 临界 区 (critical section) 的 ， 临 界 区 和 互 斥 锁 很 相似 ， 唯 一 
不 同 的 是 临界 区 是 属于 创建 线程 的 地 址 空间 内 部 的 。 由 于 临界 区 不 是 内 核对 象 ， 它 们 没有 
句柄 和 安全 描述 符 也 不 能 在 进程 之 间 传 递 。 锁 定 临 界 区 和 解锁 临界 区 分 别 通过 API 函数 
EnterCriticalSection 和 LeaveCriticalSection 来 实现 。 由 于 这 些 API 函数 是 完全 在 用 户 空间 执行 
的 ， 因 此 它们 比 互 斥 锁 快 得 多 。Windows 7 也 提供 条 件 变 量 、 轻 量 级 读 / 写 锁 、 锁 定 - 释放 操 
作 等 其 他 同步 机 制 ， 但 这 些 只 能 用 于 单一 进程 的 线程 之 间 。 

最 后 一 种 同步 机 制 是 使 用 称 为 事件 (event) 的 内 核 级 对 象 。 线 程 可 以 使 用 API 调用 
WaitForSingleObject 等 待 一 个 事件 。 线 程 可 以 使 用 SetEvent 释放 一 个 等 待 事件 的 线程 或 者 使 
用 PulseEvent 释放 所 有 等 待 事件 的 线程 。 事 件 可 以 以 不 同 的 方式 到 来 并 有 不 同 的 选项 。 在 完 
成 异步 VO 以 及 其 他 用 途中 ，Windows 使 用 事件 来 实现 同步 。 

事件 、 互 斥 锁 、 信 号 量 和 命名 管道 一 样 都 被 命名 并 保存 在 文件 系统 中 ， 例 如 命名 管 
道 。 两 个 或 者 多 个 进程 可 以 通过 打开 相同 的 事件 、 互 斥 锁 或 者 信号 量 来 保持 同步 。 这 种 方 
法 比 一 个 进程 创建 对 象 ， 其 他 进程 拷贝 这 些 对 象 的 句柄 要 更 好 一 些 。 虽 然后 一 种 方法 也 是 
可 行 的 。 


6.6 Whe 


我 们 可 以 把 操作 系统 看 成 是 用 于 说 明 指 令 系统 层 没有 的 体系 结构 特性 的 解释 器 。 其 主要 
部 分 有 虚拟 内 存 、 虚 拟 IO 指令 和 用 于 并 行 处 理 的 一 些 工具 。 

虚拟 内 存 是 一 种 体系 结构 特性 ， 它 的 目的 是 为 了 使 程序 能 够 使 用 比 计 算 机 的 物理 内 存 
更 多 的 地 址 空间 ， 或 者 提供 一 个 一 致 的 、 灵 活 的 内 存 保护 及 共享 机 制 。 虚 拟 内 存 的 实现 方式 
有 页 式 、 段 式 和 段 页 式 。 在 页 式 虚拟 内 存 中 ， 地 址 空间 被 分 成 大 小 相等 的 虚 页 。 其 中 的 某 些 
页 被 上 映射 到 物理 页 帧 ， 其 他 页 则 不 映射 。 对 映射 页 的 访问 将 由 MMU 转换 到 正确 的 物理 地 
址 。 引 用 一 个 没有 映射 的 页 将 产生 一 个 缺 页 。Core i7 和 OMAP4430 ARM CPU 都 具有 复杂 的 
MMU 以 支持 虚拟 内 存 和 分 页 。 

在 操作 系统 层 ， 最 重要 的 WO 抽象 是 文件 。 文件 由 一 系列 的 字 节 或 者 逻辑 记录 组 成 ， 读 
写 文件 时 并 不 需要 知道 磁盘 、 磁 带 和 其 他 IO 设备 是 如 何 工作 的 。 文 件 可 以 顺序 访问 ， 也 可 
以 通过 记录 号 或 者 键 进行 随机 访问 。 目 录 可 以 用 来 把 文件 分 成 组 。 文 件 可 以 保存 在 连续 的 
扇 区 中 或 者 零散 地 分 布 在 磁盘 上 。 在 后 一 种 情况 下 (这 种 情况 在 硬盘 上 经 常 发 生 ) 需要 使 
用 数据 结构 来 定位 文件 的 块 。 系 统 可 以 通过 使 用 链表 或 者 位 图 来 掌握 空闲 的 磁盘 存储 区 的 
情况 。 

并 行 处 理 通常 采用 多 个 进程 分 时 使 用 一 个 CPU 的 方式 来 模拟 和 实现 。 如 果 不 对 进程 间 通 
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信 加 以 控制 ， 将 会 导致 竞争 条 件 。 为 了 解决 这 一 问题 ， 引 入 了 同步 原 语 ， 信 和 号 量 就 是 同步 原 
语 的 一 个 简单 的 例子 。 使 用 信号 量 可 以 很 容易 并 且 很 完美 地 解决 生产 者 一 一 消费 者 问题 。 


UNIX 和 Windows 7 是 复杂 操作 系统 的 两 个 例子 。 它 们 都 支持 分 页 和 内 存 映射 文件 。 


它们 也 都 支持 层次 型 的 文件 系统 ， 其 中 文件 都 是 由 字 节 序列 组 成 的 。 最 后 一 点 ，UNIX 和 
Windows 7 都 支持 进程 和 线程 以 及 用 于 进程 和 线程 的 同步 机 制 。 
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9. 


为 什么 操作 系统 只 能 解释 某 些 第 三 层 指 令 ， 而 微 程序 却 能 解释 所 有 的 指令 系统 层 指令 呢 ? 
一 台 计 算 机 具有 32 位 的 按 字 节 寻 址 的 虚拟 地 址 空间 。 页 大 小 为 4KB。 在 该 虚拟 地 址 空间 中 
共有 多 少 页 ? 


. 页 大 小 必须 是 2 WERK FENG? 理论 上 来 讲 能 实现 大 小 为 4000 字 节 的 页 吗 ? 如 果 能 实现 的 


话 ， 这 种 方式 实用 吗 ? 


. 某 个 虚拟 内 存 的 页 大 小 为 1024 个 字 ， 共 有 8 个 虚 页 ，4 个 物理 页 。 页 表 如 下 : 





a. 列 出 所 有 产生 缺 页 的 虚拟 地 址 。 
b. 0, 3728, 1023, 1024, 1025, 7800 和 4096 的 物理 地 址 是 多 少 ? 
台 计 算 机 的 虚拟 地 址 空间 有 16 页 ， 但 是 只 有 4 个 物理 页 。 起 初 ， 内 存 是 空 的 。 一 个 程序 
按照 如 下 的 顺序 引用 虚 页 
ae ae a ee a ee | 
a. 使 用 LRU 时 哪个 页 会 产生 缺 页 ? 
b. 使 用 FIFO 时 哪个 页 会 产生 缺 页 ? 


.在 6.1.4 节 中 ， 列 出 了 使 用 FIFO 进行 页 替换 的 算法 。 请 设计 一 个 更 有 效 的 算法 。 提 示 : 可 


以 在 新 调 人 的 页 中 修改 计数 器 ， 不 考虑 其 他 页 。 


.在 本 章 讨 论 的 分 页 系统 中 ， 缺 页 处 理 是 指令 系统 层 的 一 部 分 ， 因 此 没有 出 现在 任何 操作 系 


统 层 程 序 地 址 空间 中 。 而 在 实际 中 ， 缺 页 处 理 程 序 本 身 也 要 占用 页 ， 而 且 可 能 在 某 些 条 件 
F CAI, FIFO 页 替换 策略 )， 该 页 本 身 会 被 蔡 换 出 去 。 如 果 发 生 缺 页 时 ， 缺 页 处 理 程序 不 
在 内 存 中 会 出 现 什么 情况 ?” 应 该 如 何 解决 该 问题 ? 


.并 不 是 所 有 的 计算 机 都 可 以 在 进行 页 的 写 操作 时 自动 设置 硬件 标志 位 。 不 过 ;了 解 哪 些 页 


被 修改 过 还 是 很 有 用 的 ， 这 样 可 以 避免 在 使 用 之 后 把 所 有 的 页 都 写 回 磁盘 。 假 定 每 页 为 独 
立 的 读 取 、 写 人 和 执行 都 设置 了 一 个 硬件 标志 位 ， 那 么 操作 系统 怎样 才能 够 了 解 哪 一 页 是 
“干净 ”的 、 哪 一 页 是 “ 脏 ” 的 ? 

考虑 一 个 段 页 式 内 存 。 每 个 虚拟 地 址 有 2 位 的 段 号 ，2 位 的 页 号 和 11 位 的 页 内 偏 移 量 。 内 
存 有 32KB， 每 页 大 小 为 KB。 段 的 状态 分 为 只 读 、 读 /执行 、 读 / 写 和 读 / 写 /执行 。 页 
表 和 保护 位 如 下 表 所 示 : 


E Hl 





对 于 如 下 所 示 的 每 次 访问 内 存 的 虚拟 地 址 ， 计 算出 相应 的 物理 地 址 。 如 果 发 生 缺 页 ， 说 明 
缺 页 类 型 。 


访问 类 型 R 号 页 号 页 内 偏 移 量 
1. 取 数据 
2. 取 数 据 
3. 取 数 据 
4. 存 数据 
5. 存 数 据 
6. 存 数据 
7. 跳 转 
8. 取 数 据 
9. 取 数 据 
10. 跳 转 
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10. 某 些 计算 机 人 允许 在 用 户 空 间 内 直接 执行 IO 指令 。 例 如 ， 用 户 进程 内 的 程序 可 以 直接 启动 


磁盘 向 缓冲 区 内 传送 数据 。 如 果 在 实现 虚拟 内 存 时 采用 了 压缩 技术 ， 那 么 这 种 做 法 会 产生 
问题 吗 ?9 请 讨论 。 

11. 允许 使 用 内 存 映 射 文件 的 操作 系统 总 是 需要 把 文件 映射 在 页 的 边界 上 。 例 如 ， 如 果 使 
用 4KB 大 小 的 页 被 映射 的 文件 就 必须 从 地 址 4096 开始 ， 而 不 能 从 地 址 5000 开始 。 为 
什么 ? 

12. 在 Core i7 中 ， 当 调 人 一 个 段 寄存 器 时 ， 相 应 的 描述 符 也 被 取出 并 保存 在 段 寄 存 器 的 不 可 
见 部 分 中 。 请 你 想 一 想 Intel 的 设计 人 员 为 什么 要 这 么 做 ? 

13. 一 个 在 Core i7 上 运行 的 程序 使 用 偏 移 量 8000 访问 本 地 段 10。LDT BE 10 的 BASE 字段 的 
值 是 10 000。Core i7 将 使 用 哪 一 个 页 目录 项 ? 页 号 是 多 少 ? 偏 移 量 是 多 少 ? 

14. 讨论 在 一 个 不 分 页 的 段 式 内 存 中 替换 段 的 可 行 的 算法 。 

15. 比较 内 部 碎片 和 外 部 碎片 。 可 以 采取 什么 措施 减轻 它们 的 危害 ? 

16. 超级 市 场 常 常会 遇 到 和 虚拟 内 存 系 统 中 页 替换 相 类 似 的 问题 。 它 们 只 有 固定 数量 的 货架 
来 展示 越 来 越 多 的 商品 。 如 果 有 一 种 重要 的 新 商品 上 市 ， 比 如 100% 的 高 效率 狗 食 ， 那 
么 就 必须 从 货架 上 拿 走 某 些 商品 来 腾 出 空间 。 显 而 易 见 ， 可 以 使 用 的 替换 算法 有 LRU 和 
FIFO。 你 推荐 使 用 哪 一 种 算法 ? 

17. 在 某 些 方面 ， 高 速 缓冲 和 内 存 分 页 十 分 类 似 。 这 两 种 机 制 都 是 使 用 两 级 存储 (前 者 是 使 用 
cache 和 主 存 ， 后 者 是 使 用 主 存 和 磁盘 )。 在 本 章 中 我 们 分 析 了 大 磁盘 页 和 小 磁盘 页 的 优 缺 
点 ， 这 些 对 cache 行 大 小 也 同样 适用 吗 ? 
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18. 在 许多 文件 系统 中 ， 读 取 文件 之 前 ， 需 要 使 用 open 系统 调用 打开 文件 。 这 是 为 什么 ? 
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20. 


21. 
22. 


2 


W 


2 


> 


2 


wn 


2 


2 


N 


28. 


a 


对 管理 磁盘 空闲 空间 的 位 图 法 和 碎片 表 法 进行 比较 。 考 虑 一 个 具有 800 个 柱 面 ， 每 个 柱 面 
有 5 条 磁道 、32 个 扇 区 的 磁盘 。 假 定 分 配 单元 是 扇 区 而 保存 一 个 碎片 的 信息 需要 32 位 的 
表 项 。 那 么 碎片 表 在 增长 到 比 位 图 大 之 前 能 够 保存 多 少 碎片 ? 

除 最 佳 匹 配 和 最 先 匹配 分 配方 案外 ， 第 三 种 就 是 最 差 匹配 分 配方 案 。 在 这 种 方案 中 进程 从 
最 大 的 剩余 碎片 分 配 空 间 ， 这 种 最 差 匹配 算法 的 好 处 是 什么 。 

描述 一 下 书 中 没有 提 到 的 文件 打开 系统 调用 的 用 途 是 什么 。 

使 用 存储 分 配 模 型 可 以 有 效 地 预测 磁盘 的 性 能 。 假 定 磁盘 是 由 N 个 扇 区 (N>>1l ) 组 成 的 
连续 的 线性 地 址 空间 ， 该 地 址 空间 由 连续 的 数据 块 、 碎 片 和 连续 的 数据 块 依次 组 成 。 如 果 
经 验 数 据 显示 数 据 和 碎片 长 度 的 概率 分 布 是 相同 的 ， 那么 长 度 为 i 个 扇 区 的 数据 和 碎片 的 
出 现 概率 均 为 2 ”， 那 么 磁盘 上 碎片 数量 的 数学 期 望 是 多 少 ? 


.在 某 种 型 号 的 计算 机 中 ， 程 序 可 以 创建 任意 多 的 文件 ， 所 有 这 些 文 件 在 程序 执行 期 间 都 可 


以 动态 增长 而 不 给 操作 系统 任何 关于 它们 的 最 终 大 小 的 信息 。 你 认为 这 些 文件 能 保存 在 连 
续 的 扇 区 中 吗 ? 请 解释 。 


. 对 各 种 不 同 的 文件 系统 的 研究 表明 ， 超 过 半数 的 文件 都 是 一 些 只 有 几 KB 或 者 更 小 的 文 


件 ， 绝 大 部 分 文件 比 8KB 还 小 。 另 一 方面 ，10% 的 大 文件 占用 了 95% 的 已 用 磁盘 空间 。 
从 这 些 数据 中 ， 你 能 得 到 关于 磁盘 块 大 小 怎样 的 结论 。 


. 考虑 操作 系统 实现 信号 量 的 下 列 方法 。 当 CPU 要 对 信号 量 (信号 量 是 内 存 中 的 整数 变量 ) 


执行 up 和 down 操作 时 ， 它 首先 设置 CPU 的 优先 级 或 者 屏蔽 位 来 屏蔽 所 有 的 中 断 。 然 后 
取出 信号 量 ， 修 改 、 相 应 地 执行 分 支 指令 。 最 后 ， 再 次 使 能 中 断 。 在 下 列 两 种 情况 下 ， 这 
种 方法 可 行 吗 ? 

a. 单 CPU 每 100 毫秒 执行 一 次 进程 切换 。 

b. 信号 量 位 于 两 个 CPU 共享 的 通用 内 存 中 。 

在 6.3.3 节 中 有 关 信 号 量 的 描述 语句 是 “通常 睡眠 进程 排 成 队列 进行 记录 。”。 当 up 操作 来 
临时 ， 使 用 队列 方式 比 随机 唤醒 睡眠 进程 能 够 获得 什么 优势 。 


.“ 永 不 崩溃 ”操作 系统 公司 最 近 收 到 了 一 些 用 户 对 最 新 版 本 的 操作 系统 的 投诉 ， 主 要 是 关 


于 信号 量 操作 的 。 用 户 们 觉得 进程 阻塞 是 不 可 接受 的 (他 们 称 为 “工作 时 睡觉 ”)。 由 于 公 
司 的 策略 是 给 消费 者 满意 的 服务 ， 因 此 他 们 决定 在 操作 系统 中 增加 peek 操作 作为 down 和 
up 操作 的 补充 。peek 的 工作 是 检查 信和 号 量 而 不 改变 信和 号 量 的 值 也 不 阻塞 进程 。 使 用 peek, 
觉得 阻塞 是 不 可 接受 的 程序 可 以 首先 检查 信号 量 看 执行 down 操作 是 否 安全 。 当 三 个 或 者 
更 多 的 进程 使 用 信号 量 时 ， 这 种 方法 能 成 功 吗 ? 如 果 只 有 两 个 进程 呢 ? 

画 出 显示 进程 P1、P2 和 了 P3 从 0 ~ 1000 毫秒 范围 内 的 运行 状况 和 阻塞 状况 。 这 三 个 进程 
在 同一 个 信号 量 上 执行 up 和 down 操作。 当 有 两 个 进程 阻塞 而 第 三 个 进程 执行 up 操作 
时 ， 号 小 的 进程 重新 运行 ， 也 就 是 说 ，P1 的 优先 级 高 于 P2 和 了 3， 依 此 类 推 。 在 0 时 刻 ， 
这 三 个 进程 都 在 运行 ， 信 和 号 量 的 值 为 1。 

在 =100, P1 执行 down; 

在 t=200, P1 执行 down; 

在 t=300, P2 执行 up; 

在 t=400, P3 执行 down; 

在 t=500, P1 执行 down; 
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在 t=600, P2 执行 up; 

在 t=700, P2 执行 down; 

在 800, P1 执行 up; 

在 t=900, P1 执行 up。 
29. 在 一 个 机 票 预订 系统 中 ， 需 要 保证 当 一 个 进程 使 用 文件 时 ， 没 有 别 的 进程 使 用 同一 个 文 
件 。 和 否则 ， 运 行 在 两 个 不 同 的 售票 处 的 售票 进程 可 能 会 同时 卖 出 某 个 航班 的 最 后 一 张 票 。 
请 设计 一 个 使 用 信号 量 的 同步 方法 保证 在 任意 时 刻 都 只 能 有 一 个 进程 访问 文件 (假定 所 有 
的 进程 都 遵守 这 一 规则 )。 
.为 了 能 够 在 多 个 CPU 共享 内 存 的 计算 机 中 实现 信号 量 ,计算机 体系 结构 设计 者 通常 提供 
测试 和 上 锁 指 令 (Test and Set Lock，TSL )。TSL X WARME Xo WR X 的 内 容 是 0， 就 
使 用 一 个 不 可 划分 的 内 存 周 期 把 它 设置 为 1， 并 且 跳 过 下 一 条 指令 。 如 果 义 的 内 容 不 是 
0，TSL 就 什么 也 不 做 。 使 用 TSL 指令 可 以 设计 出 具有 下 述 特性 的 lock All unlock 过 程 。 
lock(x) 检查 x 是 否 被 锁定 。 如 果 没 有 被 锁定 ， 就 锁定 它 并 返回 控制 权 。 如 果 x 已 经 被 锁定 
了 ， 就 等 待 直到 解锁 为 止 ， 然 后 再 锁定 x 并 返回 控制 权 。unlock 释放 一 个 存在 的 锁 。 如 果 
所 有 的 进程 在 使 用 信号 量 表 之 前 都 先 锁定 它 ， 那 么 在 任意 时 刻 都 只 有 一 个 进程 能 够 访问 变 
量 和 指针 ， 这 就 防止 了 竞争 。 请 使 用 汇编 语言 写 出 lock 和 unlock WE (如 果 需 要 ， 你 可 
以 做 任何 合理 的 假定 )。 
. 列 出 长 度 为 65 个 字 的 循环 缓冲 区 在 执行 下 列 每 步 操作 时 in 和 out 的 值 。 开 始 时 是 0。 
a. 22 个 字 放 人 缓冲 区 。 
b. 从 缓冲 区 中 取出 9 个 字 。 
c. 40 个 字 放 人 缓冲 区 。 
d. 从 缓冲 区 中 取出 17 个 字 。 
e. 12 个 字 放 人 缓冲 区 。 
f. 从 缓冲 区 中 取出 45 个 字 。 
g. 8 个 字 放 入 缓冲 区 。 
h. 从 缓冲 区 中 取出 11 个 字 。 
. 假设 某 个 版 本 的 UNIX 使 用 2KB 大 小 的 磁盘 块 ， 每 个 间接 块 使 用 512 个 磁盘 地 址 (一 次 、 
两 次 和 三 次 间接 块 )。 那 么 最 大 的 文件 大 小 是 多 少 ? (假定 文件 指针 为 64 位 宽 ) 
.假设 UNIX 系统 调用 unlink("/usr/ast/bin/game3") 在 图 6-37 所 示 的 上 下 文中 执行 。 请 详细 
描述 文件 系统 将 要 发 生 的 动作 。 
假定 你 必须 在 一 台 缺 乏 内 存 的 微型 计算 机 上 实现 UNIX 系统 。 使 用 各 种 方法 之 后 ， 性 能 还 
是 不 能 令 人 满意 ， 因 此 你 决定 随机 地 牺牲 某 个 系统 调用 来 提高 整体 的 性 能 。 你 选择 了 管 
道 ， 管 道 用 于 创建 进程 之 间 传 递 字 节 流 的 管道 。 没 有 了 管道 ， 你 可 以 找到 别 的 方法 来 实现 
IO 重 定向 吗 ? 如果 选 择 流水 线 又 会 怎么 样 ? 请 讨论 这 些 问 题 和 可 能 的 解决 方案 。 
. 公平 文件 描述 符 委员 会 正在 起 草 一 份 针对 UNIX 系统 的 抗议 书 ， 原 因 是 无 论 何 时 当 UNIX 
系统 返回 文件 描述 符 时 ， 它 总 是 返回 当前 未 使 用 的 最 小 的 描述 符 。 这 导致 了 大 的 文件 描述 
符 很 难 被 用 到 。 他 们 计划 返回 当前 程序 未 使 用 的 最 小 的 文件 描述 符 而 不 是 整个 系统 中 的 未 
使 用 的 最 小 的 文件 描述 符 。 他 们 认为 这 种 方案 实现 简单 ， 不 会 影响 现 有 的 程序 ， 而 且 是 公 
平 的 。 你 认为 呢 ? 
36. 在 Windows 7 中 可 以 这 样 设 置 访问 控制 表 ，Roberta 对 某 个 文件 没有 任何 访问 权限 ， 而 其 
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他 所 有 人 都 有 该 文件 的 完全 控制 权限 。 你 认为 这 是 如 何 实现 的 ? 
37. 请 在 Windows 7 下 ， 使 用 共享 缓冲 区 和 信号 量 设计 两 种 解决 生产 者 和 消费 者 问题 的 方案 。 
想 一 想 在 这 两 种 方案 下 如 何 实现 共享 缓冲 区 。 
38. 通过 模拟 来 测试 页 替换 算法 是 一 种 常用 的 技术 。 请 为 一 台 使 用 页 式 虚拟 内 存 的 计算 机 编 
写 模拟 程序 ， 该 计算 机 具有 64 个 1KB 大 小 的 页 。 模 拟 程序 需要 维护 一 张 64 个 表 项 的 表 ， 
每 个 表 项 对 应 一 页 ， 表 项 中 包括 和 虚 页 相对 应 的 物理 页 号 。 模 拟 程序 从 一 个 包括 十 进 制 
的 虚拟 地 址 的 文件 中 读 和 地址 ， 每 个 地 址 一 行 。 如 果 相应 的 页 在 内 存 中 ， 就 记录 一 次 页 
命中 。 如 果 不 在 内 存 中 ， 就 调用 页 替换 过 程 选 择 一 个 被 蔡 换 的 页 ( 也 就 是 重 写 表 中 的 一 
项 ) 并 记录 一 次 页 不 命中 。 并 不 发 生 实际 的 页 替换 。 生 成 一 个 由 随机 地 址 组 成 的 文件 来 测 
试 LRU 和 FIFO 的 性 能 。 生 成 地 址 文件 时 注意 使 百 分 之 x 的 地 址 比 前 一 个 地 址 高 4 个 字 节 
(模拟 本 地 性 )。 使 用 不 同 的 x 值 运行 你 的 模拟 程序 并 报告 你 的 结果 。 
. 图 6-26 中 的 程序 存在 严重 的 竞争 ， 因 为 两 个 线程 使 用 一 种 不 可 控制 的 方式 来 访问 共享 变 
量 ， 而 没有 采用 信号 量 或 者 其 他 的 互 斥 技术 。 和 运行 这 个 程序 观察 多 长 时 间 它 将 挂 起 。 如 果 
它 不 挂 起 ， 那 么 就 修改 这 个 程序 ， 通过 在 调整 min 和 mout 之 间 加 一 些 计算 量 来 增 大 脆弱 
性 窗口 ， 最 后 再 进行 测试 。 说 说 在 程序 一 小 时 失败 一 次 之 前 你 需要 增加 多 少 计算 量 。 
40. 请 为 UNIX 或 者 Windows 7 编写 如 下 的 程序 。 该 程序 的 输入 参数 是 目录 名 ， 功 能 是 列 出 该 
目录 中 的 全 部 文件 ， 每 个 文件 一 行 ， 首 先是 文件 名 ， 然 后 是 文件 的 大 小 。 文 件 名 的 排列 顺 
序 就 按照 其 在 目录 中 出 现 的 顺序 。 目 录 中 未 使 用 的 部 分 请 列 为 unused。 
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汇编 语言 层 





在 第 4 章 、 第 $ 章 和 第 6 章 这 三 章 中 ， 我 们 讨论 了 存在 于 大 多 数 现 代 计 算 机 中 的 3 个 不 
同 层次 。 本 章 将 主要 讨论 所 有 现代 计算 机 中 都 存在 的 另 一 个 关键 的 层次 : 汇编 语言 层 。 汇 编 
语言 层 和 微 体 系 结构 层 、 指 令 系统 层 及 操作 系统 层 都 有 重要 的 区 别 : 汇编 语言 层 是 通过 翻译 
而 不 是 解释 实现 的 。 

翻译 器 (translator ) 是 这 样 一 种 程序 : 它 可 以 把 用 某 种 语言 编写 的 用 户 程序 转换 成 另 一 
种 语言 的 程序 。 转 换 之 前 的 程序 使 用 的 语言 称 为 源 语 言 ( source language )， 而 转换 之 后 的 语 
言 称 为 目标 语言 ( target language )。 源 语言 和 目标 语言 定义 了 不 同 的 层次 。 如 果 处 理 器 可 以 直 
接 执 行使 用 源 语言 编写 的 程序 ， 就 不 需要 把 源 程序 翻译 成 目标 语言 。 

当 处 理 器 〈 可 能 是 硬件 处 理 器 也 可 以 是 软件 的 解释 器 ) 只 能 执行 目标 语言 而 不 能 执行 源 
语言 时 就 需要 使 用 翻译 器 。 如 果 翻 译 器 执行 正确 ,那么 运行 翻译 后 的 程序 将 和 在 能 够 运行 源 
语言 的 处 理 器 上 直接 运行 源 程序 得 到 完全 一 样 的 结果 。 相 应 地 ， 我 们 可 以 实现 这 样 一 种 新 的 
层次 ， 该 层次 不 存在 要 使 用 处 理 需 先 把 该 层次 语言 编写 的 程序 翻译 成 目标 层次 的 程序 ， 然 后 
再 执行 目标 层次 的 程序 的 问题 。 

理解 翻译 和 解释 的 区 别 很 重要 。 在 翻译 过 程 中 ， 使 用 源 语言 编写 的 源 程序 并 不 直接 执行 。 
相反 ， 在 翻译 结束 后 ， 它 们 将 被 翻译 成 可 以 直接 执行 的 目标 程序 ( object program ) 或 者 二 进 
制 代 码 程序 ( executable binary program), 在 整个 翻译 过 程 中 ， 有 下 面 两 个 不 同 的 步骤， 

1) 生成 使 用 目标 语言 的 等 效 程序 。 

2 ) 执行 新 生成 的 程序 。 

这 两 个 步 又 并 不 是 同步 执行 的 。 第 二 步 在 第 一 步 结束 之 后 才能 开始 。 而 在 解释 执行 过 程 
中 ， 只 有 一 个 步骤 : 执行 最 初 的 源 程序 。 并 不 需要 首先 生成 等 效 的 目标 程序 ， 虽 然 在 某 些 情 
况 下 源 程 序 可 能 会 被 转换 成 一 种 易于 解释 的 中 间 形 式 ( 例如 Java 字 节 码 )。 

当 目 标 程序 执行 时 ， 它 只 能 看 到 三 个 层次 : 微 体系 结构 层 、 指 令 系 统 层 和 操作 系统 层 。 
相应 地 ， 在 运行 时 计算 机 的 内 存 中 存在 三 个 不 同 的 程序 : 用 户 的 目标 程序 、 操 作 系统 和 微 程 
F (如 果 有 的 话 )。 这 时 已 经 看 不 到 任何 源 程序 的 痕迹 了 。 因此， 程序 执行 时 的 层次 数量 和 程 
序 翻 译 前 的 层次 数量 可 能 会 不 同 。 需 要 指出 一 点 ， 在 这 里 我 们 使 用 指令 和 语言 结构 为 程序 员 
构造 了 一 个 层次 (该 层次 并 不 是 通过 实现 技术 构造 )， 而 其 他 的 作者 可 能 会 把 执行 时 解释 器 实 
现 的 层次 和 翻译 器 实现 的 层次 做 更 为 明确 的 划分 。 


7.1 汇编 语言 简介 


根据 源 语言 和 目标 语言 的 关系 不 同 ， 可 以 把 翻译 器 大 致 分 成 两 大 类 。 如 果 源 语言 基本 上 
是 数字 型 机 器 语言 的 符号 表示 ， 就 把 这 种 翻译 器 称 为 汇编 器 (assembler )， 源 语言 相应 地 称 为 
汇编 语言 (assembly language )。 如 果 源 语言 是 如 Java 或 者 C 语言 这 样 的 高 级 语言 而 目标 语言 
或 者 是 数字 型 机 器 语言 或 者 是 机 器 语言 的 符号 表示 ， 也 就 是 汇编 语言 ,那么 这 种 翻译 器 就 称 
为 编译 器 (compiler )。 
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7.1.1 什么 是 汇编 语言 


在 一 个 纯粹 的 汇编 语言 中 ， 每 条 语句 都 精确 地 产生 一 条 机 器 指令 。 换 名 话说 ， 在 机 器 指 
令 和 汇编 程序 的 语句 之 间 存 在 着 一 一 对 应 的 关系 。 如 果 一 个 汇编 程序 的 每 一 行 都 只 有 一 条 语 
句 而 且 每 个 机 器 字 都 只 包括 一 条 机 器 指令 ， 那么 一 个 n 行 的 汇编 程序 可 以 相应 产生 n 条 指令 
的 机 器 语言 程序 。 

和 机 器 语言 (以 二 进 制 或 十 六 进 制 为 例 ) 相 比 ， 人 们 更 喜欢 使 用 汇编 语言 ， 因 为 汇编 语 
言 编程 更 容易 。 使 用 符号 名 和 符号 地 址 与 使 用 二 进 制 和 十 进 制 的 数字 有 很 大 区 别 。 大 多 数 人 
可 以 记 住 表 示 加 、 减 、 乘 和 除 的 符号 ADD、SUB、MUL 和 DIV， 但 是 很 少 有 人 能 记 住 计算 
机 中 使 用 的 相应 的 数值 。 汇 编 语言 程序 员 只 需要 记 住 符号 名 ， 因 为 汇编 器 会 负责 把 它们 翻译 
成 机 器 指令 。 

使 用 地 址 时 的 情况 也 是 类 似 的 。 汇 编 语 言 程 序 员 可 以 为 内 存 地 址 分 配 符号 名 而 由 汇编 器 
负责 把 它 转换 成 正确 的 数值 。 而 机 器 语言 程序 员 必 须 使 用 数值 来 表示 地 址 。 因 此 ， 在 几 十 年 
前 汇编 语言 发 明之 后 ， 就 没有 人 再 使 用 机 器 语言 编程 了 。 

汇编 语言 除了 具有 语句 和 机 器 指令 一 一 对 应 的 特性 之 外 ,， 还 有 一 个 和 高 级 语言 不 同 的 特 
性 。 汇 编 语言 程序 员 可 以 访问 目标 计算 机 的 所 有 指令 ， 利 用 目标 计算 机 的 所 有 特性 ， 而 高 级 
语言 程序 员 就 没有 这 样 的 能 力 。 举 例 来 说 ， 如 果 目 标 计 算 机 有 一 个 溢出 位 ， 汇 编 语 言 程 序 就 
可 以 测试 它 ， 而 Java 程序 就 不 能 直接 测试 该 位 。 汇 编 语言 程序 可 以 执行 目标 计算 机 指令 集中 
的 所 有 指令 而 高 级 语言 程序 则 不 行 。 简 单 地 说 ， 机 器 语言 能 做 的 事情 汇编 语言 都 能 做 ， 而 在 
高 级 语言 中 ， 许 多 目标 计算 机 的 指令 和 寄存 器 是 不 能 访问 的 ， 有 些 特性 也 是 无 法 利用 的 。 用 
于 系统 编程 的 语言 ， 如 C 语言 ， 则 同时 具有 高 级 语言 和 汇编 语言 的 特点 ， 它 使 用 高 级 语言 的 
语法 ,但 是 又 能 使 用 许多 只 有 汇编 语言 才能 使 用 的 特性 。 

汇编 语言 和 高 级 语言 的 男 一 个 重要 的 区 别 是 : 汇编 语言 程序 只 能 运行 在 指令 系统 相同 的 
系列 计算 机 上 ， 而 高 级 语言 程序 则 可 以 运行 在 各 种 不 同 的 计算 机 上 。 对 许多 应 用 来 说 ， 这 种 
软件 的 可 移植 性 相当 重要 。 


7.1.2 为 什么 使 用 汇编 语言 


使 用 汇编 语言 编写 程序 很 困难 ， 这 一 点 千 真 万 确 。 如 果 你 性 格 情 弱 或 者 意志 不 坚 ， 那 你 
最 好 不 要 使 用 汇编 语言 。 而 且 ， 编 写 同 样 的 程序 ， 使 用 汇编 语言 比 使 用 高 级 语言 需要 花费 更 
多 的 时 间 。 除 此 之 外 ， 还 需要 花 更 多 的 时 间 去 调试 和 维护 。 

既然 如 此 ， 为 什么 还 要 使 用 汇编 语言 呢 ?7 主要 有 两 个 原因 : 性 能 和 对 计算 机 的 完全 控制 。 
首先 ， 一 个 出 色 的 汇编 语言 程序 员 写 出 的 代码 要 比 高 级 语言 程序 员 写 出 的 更 小 而 且 更 快 。 对 
某 些 应 用 来 说 ,程序 的 运行 速度 和 代码 的 长 度 非常 重要 。 许 多 嵌入 式 应 用 ， 例 如 智能 卡 或 者 
RFID 卡 中 的 代码 、 设 备 驱 动 程序 、 字 符 串 操作 库 、BIOS 程序 和 其 他 实时 应 用 中 的 性 能 关键 
型 内 循环 等 都 属于 这 一 类 。 

其 次 ， 某 些 应 用 程序 要 求 能 够 完全 控制 计算 机 硬件 ， 这 一 点 使 用 高 级 语言 不 可 能 实现 。 
操作 系统 中 的 低级 中 断 和 陷阱 处 理 程序 以 及 许多 嵌入 式 实时 系统 中 的 设备 控制 程序 都 属于 这 
一 类 应 用 。 

除了 能 够 利用 汇编 语言 编程 的 这 些 原因 之 外 ， 学 习 汇 编 语言 还 有 其 他 两 个 原因 。 第 一 个 
原因 是 编译 器 必须 能 够 产生 供 汇编 器 使 用 的 汇编 程序 或 者 自己 执行 汇编 过 程 。 因 此 ， 为 了 理 
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解 编译 器 的 工作 原理 必须 首先 理解 汇编 语言 。 因 为 编译 器 和 汇编 器 毕竟 也 是 人 编写 的 。 
第 二 个 原因 是 研究 汇编 语言 可 以 使 我 们 看 清楚 实际 计算 机 的 结构 。 对 于 学 习 计 算 机 体系 
结构 的 学 生 ， 编 写 汇编 语言 是 在 体系 结构 层 理解 计算 机 的 唯一 的 途径 。 


7.1.3 ”汇编 语言 语句 的 格式 


虽然 汇编 语言 语句 的 结构 类 似 于 它 所 表示 的 机 器 指令 的 结构 ， 但 不 同 计算 机 使 用 的 不 同 
级 别 的 汇编 语言 还 是 具有 许多 相似 之 处 ， 这 使 我 们 可 以 对 汇编 语言 进行 一 般 性 的 讨论 。 图 7-1 
给 出 了 x86 汇编 语言 编写 的 计算 N = I + 本 的 程序 段 。 在 这 个 例子 中 空 行 之 下 的 语句 不 代表 任 
何 机 器 指令 ,它们 是 用 来 为 变量 I[、J 和 NN 保留 内 存 的 汇编 器 命令 。 


; 寄存 器 EAX 赋值 为 I 
; 寄存 器 EAX =1+J 
;N=I+J 


;保留 4 个 字 节 并 初始 化 为 3 
; 保留 4 个 字 节 并 初始 化 为 4 
; 保留 4 个 字 节 并 初始 化 为 0 





图 7-1 x86 汇编 程序 计算 N 三 I+jJ 


Intel 系列 的 处 理 器 (EI x86 ) 可 以 使 用 多 个 不 同 的 汇编 器 ， 每 个 都 有 不 同 的 语法 。 本 章 
我 们 使 用 微软 的 MASM 汇编 语言 为 例 。 也 有 很 多 支持 ARM 处 理 器 的 汇编 器 ， 它 们 的 语法 和 
x86 汇编 器 比较 类 似 ， 所 以 我 们 举 一 个 例子 就 足够 了 。 

汇编 语言 的 语句 有 四 个 组 成 部 分 : 标号 、 操 作 码 、 操 作 数 和 注释 ， 每 个 组 成 部 分 都 不 是 
必 不 可 少 的 。 标 号 为 内 存 地 址 提供 符号 名 ， 这 在 执行 语句 跳 转 时 是 必须 的 。 如 果 数 据 字段 有 
标号 ， 就 可 以 使 用 标号 来 访问 该 数据 字段 。 如 果 某 个 语句 使 用 了 标号 ， 那 么 标号 应 该 从 第 一 
列 开始 。 

图 7-1 中 的 例子 有 4 个 标号 : FORMULA, I JAIN. MASM 汇编 语言 中 代码 标号 后 面 
需要 冒号 而 数据 标号 后 面 则 不 需要 。 这 种 差别 是 无 关 紧 要 的 ， 不同 的 汇编 器 的 设计 者 们 有 不 
同 的 习惯 。 这 种 差别 和 底层 的 体系 结构 无 关 。 标 号 后 面 加 冒号 的 好 处 是 标号 可 以 单独 占 一 行 ， 
标号 后 面 的 操作 码 可 以 另 起 一 行 。 这 种 处 理 方式 某 些 情 况 下 会 给 编译 器 带 来 方便 。 如 果 不 使 
用 冒号 就 不 能 这 样 做 ， 因 为 这 会 导致 标号 和 操作 码 无 法 区 分 。 冒 号 消除 了 这 种 潜在 的 歧义 。 

在 某 些 汇编 器 中 ， 标 号 长 度 最 多 支持 6 个 或 者 8 个 字符 ， 这 一 点 不 能 令 人 满意 。 与 之 相 
对 的 是 ， 大 多 数 的 高 级 语言 都 允许 使 用 任意 长 度 的 标号 名 。 足 够 长 的 并 且 经 过 精心 选择 的 名 
字 可 以 增加 程序 的 可 读 性 并 使 程序 更 容易 被 别人 理解 。 

所 有 的 计算 机 都 有 一 些 寄 存 器 ， 这 些 寄存 器 需要 命名 。 在 x86 处 理 器 中 寄存 器 名 称 为 
EAX, EBX, ECX 等 。 

操作 码 字段 既 可 以 是 机 器 语言 操作 码 的 符号 缩写 一 如 果 该 语句 是 一 条 机 器 指令 的 符号 表 
示 ， 也 可 以 是 汇编 器 本 身 使 用 的 命令 。 操 作 码 名 称 的 选择 只 不 过 是 习惯 问题 ， 不 同 的 汇编 语言 
设计 者 可 能 会 做 出 不 同 的 选择 。MASM 汇编 器 的 设计 者 使 用 MOV 同时 表示 把 数 从 内 存 调 人 寄 
存 器 和 从 寄存 器 存 人 内 存 这 两 个 操作 。 本 来 他 们 也 可 以 选择 使 用 MOVE 或 者 LOAD 和 STORE. 
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汇编 程序 经 常 需要 为 变量 预 留 空间 。MASM 汇编 程序 设计 者 使 用 了 DD (Define 
Double )， 因 为 8088 中 一 个 字 是 16 位 的 。 

汇编 语言 语句 中 的 操作 数字 段 用 于 定义 存放 机 器 指令 要 使 用 的 操作 数 的 地 址 或 者 寄存 器 。 
比如 ， 整 数 加 指令 的 操作 数字 段 指出 把 哪个 整数 加 到 另外 哪个 整数 上 。 跳 转 指令 的 操作 数字 
段 指出 跳 转 到 哪里 。 操 作 数 可 以 是 寄存 器 、 常 数 、 内 存 地 址 等 。 

程序 员 可 以 使 用 注释 对 程序 完成 的 工作 进行 解释 ， 这 对 以 后 使 用 或 者 修改 此 程序 的 程序 
员 会 有 很 大 的 帮助 ， 当 然 ， 程 序 的 作者 一 年 以 后 再 来 看 这 个 程序 可 能 也 会 从 注释 中 获得 帮助 。 
一 个 没有 任何 注释 的 汇编 程序 几乎 是 不 可 能 被 理解 的 ， 即 使 是 作者 在 一 段 时 间 以 后 也 会 搞 不 
明白 程序 的 意图 。 注 释 的 目的 就 是 给 人 看 ， 在 汇编 和 生成 代码 的 过 程 中 会 把 注释 略 去 。 


7.1.4 AHE 


除了 定义 将 要 执行 的 机 器 指令 之 外 ， 汇 编 语言 程序 还 可 能 包括 汇编 器 本 身 使 用 的 命令 ， 
比如 ， 要 求 分 配 一 些 存储 空间 或 者 把 一 个 新 页 放 人 链表 。 汇 编 器 本 身 使 用 的 命令 称 为 伪 指 令 
(pseudoinstruction )， 有 时 候 也 称 为 汇编 器 指令 (assembler directive )。 在 图 7-1a 中 我 们 已 经 
见 到 了 一 条 典型 的 伪 指 令 : DD. Al 7-2 列 出 了 用 于 x86 处 理 器 的 微软 MASM 汇编 器 使 用 的 
伪 指 令 。 










BE TNE I ee eee 
定义 一 个 新 的 符号 ， 让 它 等 于 给 定 的 表达 式 

| DB “| 为 -个 或 者 多 个 《初始化 的 ) 字 节 分 本 空间 | 
CO 利生 省 
ee O ATREO 
本 
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7-2 ”汇编 器 (MASM ) 中 用 到 的 某 些 伪 指令 
伪 指 令 SEGMENT 开始 一 个 新 的 段 ，ENDS 则 结束 一 个 新 的 段 。 使 用 这 条 伪 指 令 ， 我们 
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可 以 开始 一 个 正文 段 编写 代码 ， 再 开始 一 个 数据 段 ， 然 后 又 回 到 正文 段 。 

伪 指 令 ALIGN 使 它 的 下 一 行 (一 般 来 说 是 数据 ) 的 地 址 是 它 的 参数 的 倍数 。 举 例 来 说 ， 
如 果 当 前 的 段 已 经 有 了 61 个 字 节 的 数据 ， 那 么 ALIGN 4 之 后 的 地 址 分 配 将 从 64 开始 。 

EQU 用 于 为 一 个 表达 式 定 义 符号 名 。 比 如 说 ， 在 伪 指 令 

BASE EQU 1000 
之 后 ， 标 识 符 BASE 就 可 以 在 任何 地 方 使 用 来 代表 1000。EQU 后 面 的 表达 式 可 以 是 多 个 已 经 
定义 的 标识 符 的 算术 表达 式 或 者 其 他 类 型 的 表达 式 ， 比 如 : 

LIMIT EQU 4* BASE + 2000 

大 多 数 汇编 器 ， 包 括 MASM， 都 要 求 在 语句 中 使 用 标识 符 之 前 要 先 定义 。 

下 面 4 条 伪 指 令 ，DB、DD、DW 和 DQ 分 别 用 于 为 它们 后 面 的 变量 分 配 1、2、4 和 8 
个 字 节 的 空间 。 举 例 来 说 ， 

TABLE DB 11, 23, 49 

这 条 伪 指令 分 配 了 3 个 字 节 的 空间 ， 初 始 值 分 别 是 11、23 和 49。 它 还 定义 了 标识 符 
TABLE，TABLE 的 值 就 是 保存 11 的 字 节 的 地 址 。 

PROC 和 ENDP 伪 指 令 分 别 用 于 表示 汇编 语言 过 程 的 开始 和 结束 。 汇 编 语言 中 的 过 程 和 
其 他 编程 语言 中 的 过 程 的 功能 是 相同 的 。 类 似 地 ，MACRO 和 ENDM 分 别 表示 安定 义 的 开始 
和 结束 。 本 章 的 后 面 我 们 将 会 进一步 讨论 宏 。 

下 面 两 条 伪 指 令 ，PUBLIC 和 EXTERN 用 于 控制 标识 符 的 作用 域 。 一 般 来 说 ， 一 个 程序 
由 多 个 文件 组 成 的 情况 是 很 常见 的 。 因 此 经 常 出 现 一 个 文件 中 的 过 程 需要 调用 另 一 个 文件 中 
定义 的 过 程 或 者 数据 的 情况 。 为 了 便于 进行 这 种 跨 文件 的 引用 ， 可 以 使 用 PUBLIC 使 一 个 标 
识 符 对 其 他 文件 来 说 是 可 见 的 。 类 似 地 ， 为 了 防止 编译 器 认为 当前 文件 使 用 了 未 定义 的 变量 ， 
该 标识 符 应 该 使 用 EXTERN 来 说 明 ， 编 译 器 就 会 知道 该 标识 符 将 在 其 他 文件 中 定义 。 没 有 使 
用 这 两 条 伪 指 令 定义 的 标识 符 的 作用 域 将 只 局 限于 本 文件 。 这 也 意味 着 ， 同 时 在 多 个 文件 中 
使 用 FOO 将 不 会 产生 冲突 ， 因 为 每 个 FOO 的 定义 都 只 局 限于 本 文件 。 

当 汇编 器 看 到 INCLUDE 伪 指 令 后 ， 它 将 把 该 指令 的 参数 所 指定 的 文件 的 全 部 内 容 都 放 
人 当前 文件 。 这 种 包含 文件 的 内 容 通常 包括 定义 、 宏 和 其 他 同时 用 于 多 个 文件 的 内 容 。 

许多 汇编 器 ， 包 括 MASM 都 支持 条 件 汇编 ， 举 例 来 说 : 

WORDSIZE EQU 32 

IF WORDSIZE GT 32 

WSIZE: DD 64 

ELSE 


WSIZE: DD 32 
ENDIF 


上 面 这 段 程 序 首 先 分 配 一 个 32 位 的 字 并 把 地 址 存 人 WSIZE。 该 字 的 初始 值 是 64 还 是 32 
则 依赖 于 WORDSIZE 的 值 是 不 是 32。 这 种 结构 一 般 用 于 编写 既 可 能 在 32 位 计算 机 上 汇编 
的 程序 也 可 能 在 64 位 计算 机 上 汇编 的 程序 。 只 要 把 与 机 器 相关 的 代码 用 正和 ENDIE 包含 起 
来 ， 然 后 只 需要 改变 WORDSIZE 的 定义 ， 程 序 就 可 以 自动 地 满足 不 同 的 汇编 要 求 。 使 用 这 种 
方法 ， 可 以 把 一 个 源 程序 用 于 多 个 不 同 的 目标 计算 机 ， 这 就 使 软件 开发 和 维护 更 加 容易 。 在 
一 般 情 况 下 ， 都 是 把 WORDSIZE 这 样 与 机 器 相关 的 定义 写 人 一 个 文件 中 ， 对 不 同 的 计算 机 使 
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用 该 文件 的 不 同 版 本 。 通 过 包含 正确 的 定义 文件 ,程序 就 可 以 很 容易 地 被 编译 成 适用 于 不 同 
的 计算 机 的 版 本 。 

COMMENT 伪 指 令 人 允许 用 户 改 变 注 释 的 分 隔 符 ， 不 再 使 用 分 号 。PAGE 用 于 控制 汇编 器 
产生 的 程序 清单 的 分 页 。END 则 表示 程序 的 结束 。 

MASM 中 还 有 许多 其 他 的 伪 指令 。 其 他 的 x86 汇编 器 有 不 同 的 伪 指令 集 ， 因 为 伪 指 令 和 
底层 的 体系 结构 无 关 ， 它 只 代表 汇编 器 作者 的 习惯 。 


T2 B 


汇编 语言 程序 员 常 常 需要 在 一 个 程序 中 重复 执行 某 几 条 指令 的 序列 。 当 然 最 简单 的 办 法 
是 在 任何 需要 的 地 方 都 重复 地 写 这 些 指 令 。 如 果 这 个 指令 序列 很 长 ， 或 者 它 要 使 用 很 多 次 ， 
那么 这 种 重复 让 人 心烦 。 

另 一 种 方法 是 把 这 几 条 指令 写成 一 个 过 程 ， 在 需要 的 地 方 就 调用 该 过 程 。 这 种 方法 的 缺 
点 是 每 次 需要 执行 这 几 条 指令 时 都 要 执行 过 程 调用 指令 和 返回 指令 。 如 果 该 指令 序列 很 短 ， 
比如 说 只 有 两 条 指令 ， 那 么 过 程 调用 带 来 的 开销 就 会 显著 地 降低 程序 的 执行 速度 。 而 宏 则 提 
供 了 一 种 既 简 单 又 有 效 地 解决 这 种 重复 执行 的 指令 序列 的 方案 。 


7.2.1 宏 定义 、 调 用 和 扩展 


宏 定义 (macro definition) 就 是 给 一 段 程序 取 个 名 字 。 在 宕 被 定义 之 后 ， 程 序 员 就 可 以 
用 宏 的 名 称 来 代替 宏 表 示 的 那 一 段 程序 。 从 效果 上 说 ， 宏 相当 于 是 一 段 程序 的 缩写 。 图 7-3a 
是 一 个 用 x86 处 理 器 的 汇编 语言 编写 的 两 次 交换 变量 p 和 g 内 容 的 程序 。 而 7-3b 则 把 这 些 指 
令 序 列 定义 成 了 宏 。 在 定义 之 后 ,每 次 碰 到 SWAP 时 ，SWAP 都 将 被 替换 成 下 面 这 四 行 : 

MOV EAX,P 

MOV EBX,Q 


MOV Q,EAX 
MOV PEBX 


实际 上 ， 程 序 员 就 是 用 SWAP 来 简单 表示 上 面 这 四 条 语句 而 已 。 


SWAP MACRO 


MOV PEBX 


ENDM 


SWAP 





SWAP 
a) 没有 使 用 宏 b) 使 用 了 宏 


图 7-3 ”两 次 交换 P 和 Q 的 值 的 汇编 语言 代码 


虽然 不 同 的 汇编 器 在 宏 定 义 上 有 细微 的 差别 ， 但 是 其 基本 部 分 总 是 相同 的 : 
1 ) 定义 宏 名 的 宏 头 部 。 

2) 宏 体 所 对 应 的 正文 。 

3 ) 表示 宏 定义 结束 的 伪 指 令 (如 ENDM )。 
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当 汇 编 器 碰 到 宏 定 义 时 ， 就 把 它 保存 到 宏 定 义 表 中 以 备 将 来 使 用 。 从 这 时 开始 ， 无 论 何 
At, RRS ( 比如 图 7-3 中 的 SWAP) 一 出 现 ， 汇 编 器 就 会 把 它 蔡 换 成 宏 体 。 把 宏 名 作为 
操作 码 使 用 称 为 宏 调 用 (macro call )， 把 宏 名 替换 成 宏 体 称 为 宏 扩 展 ( macro expansion )。 

宏 扩 展 在 汇编 过 程 中 进行 而 不 是 在 程序 执行 的 过 程 中 进行 。 这 一 点 很 重要 。 图 7-3a 和 
图 7-3b 实际 上 产生 的 是 完全 相同 的 机 器 语言 代码 。 仅 仅 看 机 器 语言 ， 不 可 能 看 出 程序 在 哪里 
使 用 了 宏 。 原 因 在 于 一 旦 宏 扩 展 完成 之 后 ， 宏 定义 就 会 被 汇编 器 所 抛弃 ， 而 在 产生 的 程序 中 
将 不 会 留 下 任何 痕迹 。 

请 注意 不 要 把 宏 调 用 和 过 程 调用 相 混 淆 。 两 者 之 间 的 基本 区 别 在 于 宏 调用 是 汇编 器 的 一 
条 指令 ， 汇 编 器 磁 到 这 条 指令 后 将 把 宏 名 替换 成 宏 体 。 而 过 程 调用 则 是 一 条 插入 到 目标 程序 
中 的 机 器 语言 指令 ， 当 目标 程序 执行 到 这 条 指令 时 将 调用 相应 的 过 程 。 宏 调用 和 过 程 调 用 的 
比较 参见 图 7-4。 


比较 的 项 过 程 调用 









EE | 二 | 和 | 
ET | 和 oo | 
ome | Ped 


图 7-4 宏 调 用 和 过 程 调 用 的 比较 


从 概念 上 说 ， 把 汇编 过 程 看 成 是 两 遍 扫 描 最 容易 理解 。 第 一 遍 扫描 负责 保存 所 有 的 宏 定 
义 并 且 扩展 宏 调 用 。 第 二 遍 扫描 才 是 真正 的 汇编 过 程 。 这 时 ， 将 首先 把 源 程序 交 给 一 个 专门 
负责 处 理 宏 定义 的 程序 ， 该 程序 把 所 有 的 宏 调 用 替换 成 宏 体 。 这 个 程序 的 输出 结果 是 一 个 不 
包括 任何 宏 调用 的 汇编 程序 ， 然 后 再 把 这 个 程序 送 给 汇编 器 处 理 。 

实际 上 程序 就 是 一 个 由 字母 、 数 字 、 标 点 符号 和 回 车 换行 符号 组 成 的 字符 串 ， 记 住 这 一 
点 很 重要 。 宏 扩展 所 做 的 工作 就 是 把 某 些 子 串 替换 成 其 他 的 字符 串 而 已 。 对 宏 进行 的 操作 实 
际 上 只 是 字符 串 管理 ， 而 与 宏 本 身 的 功能 无 关 。 


7.2.2 ” 带 参 数 的 宏 


使 用 刚才 讨论 的 宏 可 以 把 程序 中 重复 出 现 的 指令 序列 替换 成 宏 名 ， 这 样 可 以 缩短 程序 的 长 
度 。 但 是 ， 下 面 的 情况 也 很 常见 ， 一 个 程序 可 以 包括 几 个 基本 相同 但 是 又 不 完全 相同 的 指令 序 
列 ， 如 图 7-5a 所 示 。 在 图 7-5a 中 第 一 个 指令 序列 交换 P 和 Q， 而 第 二 个 指令 序列 交换 R 和 S. 


CHANGE MACRO P1, P2 
MOV EAX,P1 
MOV EBX,P2 
MOV P2,EAX 
MOV P1,EBX 
ENDM 









CHANGE P,Q 






CHANGE R, S 
a) 没有 使 用 宏 b HATH 


图 7-5 几乎 相同 的 语句 序列 
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宏 汇 编 器 通过 允许 在 宏 定义 时 提供 形 参 ( formal parameter )， 宏 调用 时 提供 实 参 (actual 


[526] parameter) 的 方式 来 处 理 这 种 几乎 相同 的 指令 序列 。 当 扩展 带 参 数 的 宏 时 ， 宏 体 中 的 每 一 个 


形 参 都 将 被 替换 成 相应 的 实 参 。 实 参 来 自 于 宏 调用 指令 的 操作 数 域 。 图 7-5b 是 使 用 了 带 两 个 
参数 的 宏 重新 改写 过 的 图 7-5a 中 的 程序 。 标 识 符 P1 和 P2 是 形 参 。 当 扩展 宏 时 ， 每 一 次 出 现 
AY Pl 都 将 被 替换 成 第 一 个 实 参 。 同 样 ，P2 被 替换 成 第 二 个 实 参 。 在 宏 调 用 

CHANGE P, Q 
中 ，P 是 第 一 个 实 参 ，Q 是 第 二 个 实 参 。 因 此 ， 图 7-5 中 的 两 个 程序 生成 的 可 执行 程序 是 相 
同 的 。 


7.2.3 ”高 级 特性 


大 多 数 宏 处 理 器 都 提供 了 许多 高 级 特性 以 方便 汇编 语言 程序 员 的 编程 工作 。 本 节 我 们 将 
讨论 MASM 提供 的 某 些 高 级 特性 。 所 有 支持 宏 的 汇编 器 都 会 遇 到 的 一 个 问题 是 标号 重复 。 假 
设 一 个 宏 包括 一 条 条 件 分 支 指令 和 一 个 用 于 跳 转 的 标号 。 如 果 这 个 宏 被 调用 了 两 次 以 上 ， 标 
号 就 会 重复 出 现 ， 从 而 导致 编译 错误 。 解 决 该 问题 的 一 种 方案 是 程序 员 把 标号 作为 宏 参数 ， 
每 次 调用 时 给 出 不 同 的 标号 。MASM 使 用 的 是 另 一 种 方案 ， 在 宏 中 把 标号 声明 为 局 部 的 ， 这 
样 汇编 器 每 次 扩展 宏 时 都 会 自动 生成 一 个 不 同 的 标号 。 其 他 的 一 些 汇编 器 也 提供 了 对 标号 进 
行 编号 的 规则 ， 这 样 可 以 自动 保证 标号 是 局 部 的 。 

MASM 和 其 他 大 多 数 的 汇编 器 都 允许 宏 的 骨 套 定义 。 这 一 特性 通常 和 条 件 汇编 结合 
用 。 一 般 来 说 , 在 下 语句 的 两 个 部 分 定义 同一 个 宏 ， 就 像 下 面 这 样 : 


M1 MACRO 
IF WORDSIZE GT 16 
M2 MACRO 
ENDM 
ELSE 
M2 MACRO 


无 论 正 语句 的 条 件 部 分 是 真是 假 ， 宏 M2 都 将 被 定义 , 但 是 具体 的 定义 将 依赖 于 程序 是 在 
16 位 的 计算 机 上 汇编 还 是 在 32 位 的 计算 机 上 汇编 。 如 果 MI 不 被 调用 ，M2 也 就 根本 不 会 被 
定义 。 

最 后 一 点 ， 宏 可 以 调用 其 他 的 宏 ， 包括 它 本 身 。 如 果 一 个 宏 是 递归 的 ， 也 就 是 说 ， 它 调 
用 它 本 身 ， 那 么 这 个 宏 必须 给 自己 传递 一 个 参数 ， 这 个 参数 在 每 次 扩展 时 都 要 改变 ， 而 且 宏 
必须 测试 该 参数 ， 当 该 参数 达到 特定 值 时 中 止 递 归 。 否 则 ， 汇 编 器 将 陷入 无 限 循环 。 如 果 出 
现 这 种 情况 ， 用 户 除 了 强行 中 止 汇编 器 之 外 没有 别 的 办 法 。 


7.2.4 汇编 器 中 宏 处 理 的 实现 


为 了 实现 宏 ， 汇 编 器 必须 能 够 执行 以 下 两 个 功能 : 保存 宏 定 义 和 扩 展 宏 调 用 。 下 面 我 们 
依次 讨论 这 两 个 功能 。 
汇编 右 必 须 维护 一 张 包括 所 有 宏 名 的 表 ， 每 个 名 字 都 有 一 个 指向 相应 的 宏 定 义 的 指针 ， 


这 样 在 需要 的 时 候 就 可 以 取得 宏 定义 。 某 些 汇编 器 单独 为 宏 名 使 用 一 张 表 ， 而 另 一 些 汇编 器 
则 把 宏 名 保存 在 操作 码 表 中 ， 这 时 的 操作 码 表 将 包括 所 有 的 机 器 指令 、 伪 指令 和 宏 名 。 

当 遇 到 一 个 宏 定 义 时 ， 将 根据 宕 名 和 形 参 的 数量 创建 一 个 表 项 ， 表 项 中 包括 一 个 指向 
宏 定 义 表 的 指针 ， 宏 定义 表 中 保存 的 是 宏 定 义 的 主体 。 在 处 理 定义 的 过 程 中 形 参 列表 也 被 创 
建 。 宏 体 保 存在 宏 定义 表 中 。 宏 体 中 出 现 的 形 参 将 使 用 特定 的 标识 符 来 表示 。 例 如 ， 宏 定义 
CHANGE 的 内 部 表示 如 下 : 

MOV EAX,&P1; MOV EBX,&P2; MOV &P2,EAX; MOV &P1,EBX; 
其 中 分 号 表示 回 车 ,“& ”表示 形 参 。 在 宏 定 义 表 中 ， 安 体 只 是 一 个 字符 串 。 

汇编 器 在 第 一 趟 处 理 过 程 中 ， 查 找 操作 符 并 扩展 宏 。 只 要 遇 到 宏 定 义 ， 就 把 它 存 人 宏 表 。 
如 果 过 到 宏 调用 ， 汇 编 器 就 暂停 从 输入 设备 执行 的 读 操作 而 从 保存 的 宏 表 中 读 出 宏 体 并 把 形 
参 蔡 换 成 调用 的 实 参 。 形 参 前 面 的 “&” 符 号 可 以 使 汇编 器 很 容易 识别 出 形 参 。 


7.3 汇编 过 程 


下 面 我 们 讨论 汇编 器 的 工作 原理 。 虽 然 不 同 的 计算 机 有 不 同 的 汇编 语言 ， 但 是 不 同 计 算 
机 的 汇编 过 程 是 基本 相同 的 ， 因 此 我 们 可 以 用 通用 的 术语 来 讨论 汇编 过 程 。 


7.3.1 两 趟 汇编 的 汇编 器 


一 个 汇编 语言 程序 是 由 一 串 指 令 组 成 的 ， 每 条 指令 只 占 一 行 ， 因 此 我 们 很 自然 地 想到 可 
以 设计 一 个 汇编 器 ， 每 次 读 一 条 指令 ， 然 后 把 这 条 指令 翻译 成 机 器 语言 ， 最 后 把 这 条 机 器 语 
言 指令 写 人 一 个 文件 ， 同 时 把 程序 清单 写 人 另 一 个 文件 。 这 一 过 程 可 以 重复 进行 直到 这 个 程 
序 都 被 翻译 成 机 器 语言 。 但 是 很 不 幸 ， 这 种 策略 实际 上 是 不 可 行 的 。 

请 考虑 下 面 的 情况 ， 程 序 的 第 一 条 语句 是 一 条 跳 转 到 工 的 指令 。 汇 编 器 在 确切 地 知道 工 
的 地 址 之 前 无 法 汇编 这 条 语句 。 当 然 ， 可 以 为 了 找到 地 址 工 而 继续 读 人 程序 ， 可 是 工 可 能 
在 程序 的 最 后 ， 因 此 这 种 做 法 是 不 可 行 的 。 这 个 难题 就 是 向 前 引用 问题 ( forward reference 
problem )， 也 就 是 说 ， 标 识 符 L 在 被 定义 之 前 就 被 引用 了 ; 也 就 是 说 ， 引 用 在 前 ， 定 义 在 后 。 

可 以 有 两 种 办 法 来 解决 向 前 引用 问题 。 第 一 种 方法 是 汇编 器 两 次 读 人 源 程序 ， 每 一 次 称 
为 一 趟 (pass )， 两 次 读 输入 程序 的 翻译 器 称 为 两 趟 翻译 器 (two-pass translator )。 两 趟 汇编 器 
在 第 一 趟 扫描 中 ， 把 标识 符 的 定义 (包括 语句 标号 ) 保存 在 一 张 表 中 。 当 第 二 趟 翻译 开始 时 ， 
所 有 标识 符 的 值 都 是 已 知 的 ， 这 样 就 不 存在 向 前 引用 问题 ， 就 可 以 读 人 、 汇 编 和 输出 每 条 语 
名 了 。 虽 然 这 种 方法 需要 多 读 一 次 源 程 序 ， 但 是 逻辑 清晰 、 概 念 简 单 。 

第 二 种 方法 只 读 一 次 源 程序 ， 把 源 程序 转换 成 中 间 代 码 形式 并 保存 在 内 存 中 的 表 中 。 第 
二 趟 扫描 就 只 读 这 张 表 而 不 用 读 整 个 源 程序 了 。 如 果 计 算 机 有 足够 的 内 存 (或 者 虚拟 内 存 )， 
那么 这 种 方法 可 以 节约 输入 /输出 的 时 间 。 如 果 需 要 输出 程序 清单 ， 那 就 需要 保存 整个 源码 ， 
包括 所 有 的 注释 。 如 果 不 需要 清单 ， 就 可 以 使 用 很 简洁 的 中 间 代 码 。 

无 论 采 用 哪 一 种 方法 ， 第 一 趟 扫描 需要 完成 的 另 一 项 任务 是 保存 所 有 的 安定 义 并 扩展 所 
AMAT. Ak, 标识 符 的 定义 和 宏 扩展 就 都 在 第 一 趟 扫描 中 完成 。 


7.3.2 ”第 一 趟 扫描 
第 一 趟 扫描 的 基本 功能 是 建立 符号 表 (symbol table )， 符 号 表 和 包括 所 有 符号 的 值 。 标 号 
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和 通过 伪 指令 为 数值 分 配 的 符号 名 都 是 符号 。 如 : 

BUFSIZE EQU 8192 

当 为 一 条 指令 前 面 的 标号 分 配 值 时 ， 汇 编 器 必须 知道 这 条 指令 在 程序 执行 时 的 地 址 ， 
为 了 掌握 正在 汇编 的 指令 的 执行 时 地 址 ， 汇 编 器 在 汇编 时 维护 一 个 称 为 指令 位 置 计 数 器 
(Instruction Location Counter, ILC) 的 变量 。 该 变量 在 第 一 趟 扫描 开始 时 被 置 为 0， 然 后 每 
处 理 一 条 指令 就 增加 相应 的 指令 长 度 ， 如 图 7-6 所 示 。 图 7-6 中 的 例子 是 x86 处 理 器 的 汇编 
程序 。 


标 号 R EBD 操作 数 长 ” 度 指令 位 置 计数 器 


MARIA: EAX, I EAX =I 
EBX, J EBX =J 

ROBERTA: ECX, K ECX =K 
EAX, EAX EAX=1* 1 


EBX, EBX EBX =J*J 
ECX, ECX ECX =K*K 

EAX, EBX EAX=I*1+J*J 

EAX, ECX EAX =I *1+J*J+K*K 
DONE 跳 转 到 DONE 


WW ND WwW DA UMU 





图 7-6 指令 位 置 计数 器 (ILC ) 记录 了 指令 将 调和 人 内存 的 地 址 。 本 例 中 ，MARIA 之 前 的 语句 占用 了 
100 个 字 节 


大 多 数 汇编 器 在 第 一 趟 翻译 中 都 至 少 使 用 以 下 3 张 表 : 符号 表 、 伪 指令 表 和 操作 码 表 。 
如 果 需 要 ， 还 使 用 一 张 直 接 量 表 。 符 号 表 中 每 个 符号 占 一 项 ， 如 图 7-7 所 示 。 符 号 或 者 是 标 
号 或 者 是 通过 伪 指 令 进 行 的 显 式 定义 (如 EQU )。 符 号 表 中 
每 个 表 项 都 包括 符号 本 身 (或 者 指向 符号 的 指针 )， 符 号 的 数 Aa eee 





值 和 其 他 信息 ,包括 : ee 
1 ) 和 符号 相关 的 数据 域 的 长 度 。 Taryn | 125 |_| 
2) 重 定位 位 (relocation bit )。 该 位 表示 当 程序 从 和 汇编 [STEPHANY | 129 | | 
器 假定 的 地 址 不 同 的 地 址 调 入 时 ， 是 否 改变 符号 的 值 。 chloe wok aa 


3) 符号 能 否 在 过 程 之 外 被 访问 。 

操作 码 表 中 ， 汇 编 语言 的 每 个 符号 操作 码 都 至 少 占 一 项 。 图 7-8 是 一 张 操作 码 表 的 一 部 
分 。 每 一 项 都 包括 符号 操作 码 、 两 个 操作 数 、 操 作 码 的 数值 、 指 令 长 度 和 根据 操作 数 的 数值 
和 种 类 划分 的 指令 类 别 的 数值 。 


A an WN aa 

[ae | ee | ame | | 
[ase [a [we o 
el well ll | 


图 7-8 x86 汇编 器 使 用 的 操作 码 表 的 一 部 分 
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以 操作 码 ADD 为 例 。 如 果 一 条 ADD 指令 的 第 一 个 操作 数 是 EAX， 第 二 个 操作 数 是 32 位 
常量 ( 32 位 立即 数 )， 那 么 操作 码 就 是 0x05， 指 令 长 度 是 5 个 字 节 (使 用 8 位 或 者 16 位 常数 
的 操作 码 表 中 没有 列 出 )。 如 果 ADD 指令 使 用 两 个 寄存 器 作为 操作 数 ， 指 令 长 度 就 是 两 个 字 
节 ， 操 作 码 是 0x01。 指 令 类 别 19 (这 个 数字 是 随机 选取 的 ) 表示 所 有 的 和 使 用 两 个 寄存 器 的 
ADD 指令 相同 的 操作 码 和 操作 数组 合 。 汇 编 器 使 用 指令 类 别 来 指明 处 理 所 有 这 类 指令 的 过 程 。 

某 些 汇编 器 允许 程序 员 使 用 立即 地 址 编写 程序 ， 即 使 该 地 址 处 并 不 存在 相应 的 目标 语言 
指令 。 这 样 的 伪 立 即 地 址 可 以 按照 下 面 的 方式 处 理 。 汇 编 器 在 程序 的 最 后 为 立即 数 分 配 内 存 
并 生成 一 条 引用 它 的 指令 。 例 如 ，IBM360 中 就 没有 立即 指令 ,但 是 程序 员 可 以 使 用 语句 

L 14,=F’5 
把 字 常 量 5 放 人 寄存 器 14。 使 用 这 种 方式 ， 程 序 员 不 需要 先 写 一 条 伪 指 令 分 配 一 个 初始 化 为 
5 的 字 ， 再 给 它 一 个 标号 ， 然 后 在 工 指令 中 使 用 这 个 标号 。 这 种 汇编 器 自动 保存 在 内 存 中 的 
常量 称 为 直接 量 ( literal )。 除 了 可 以 节约 程序 员 的 编程 时 间 之 外 ， 使 用 直接 量 还 可 以 提高 程 
序 的 可 读 性 ， 因 为 每 个 常量 的 值 都 直接 出 现在 语句 中 。 汇 编 器 在 第 一 遍 扫 描 时 必须 建立 保存 
程序 中 使 用 的 所 有 的 直接 量 的 表 。 我 们 作为 例子 的 三 种 计算 机 中 都 有 立即 指令 ， 因 此 它们 的 
汇编 器 也 就 没有 提供 直接 量 功能 。 在 现在 的 计算 机 中 ， 直 接 量 指令 很 常见 ， 但 是 以 前 并 不 是 
这 样 。 这 可 能 是 因为 直接 量 的 广泛 使 用 使 计算 机 的 设计 者 认为 立即 寻 址 是 一 个 好 主意 。 如 果 
需要 使 用 直接 量 ， 在 汇编 过 程 中 就 要 维护 一 张 直 接 量 表 ， 每 遇 到 一 个 直接 量 就 在 表 中 分 配 一 
个 表 项 。 在 第 一 趟 扫描 之 后 ， 把 这 张 表 排序 并 拷贝 到 另 一 个 地 方 。 

图 7-9 是 一 个 汇编 器 第 一 趟 扫描 过 程 的 基本 框架 。 它 的 编程 风格 值得 注意 。 首 先 ， 过 程 
名 称 使 过 程 的 功能 一 目 了 然 。 更 重要 的 是 ， 图 7-9 表示 了 第 一 趟 扫描 的 功能 框架 ， 虽 然 很 不 
完整 ,但 是 提供 了 一 个 很 好 的 基础 。 它 相当 短小 ， 因 此 很 容易 理解 而 且 下 一 步 的 工作 很 明 
确 一 一 编写 该 过 程 中 调用 的 其 他 过 程 。 

这 些 被 调用 的 过 程 相当 短 ， 比 如 check for symbol， 如 果 存 在 符号 ， 它 就 把 符号 作为 
字符 串 返 回 ， 如 果 不 存 在 ， 就 返回 null。 其 他 的 一 些 过 程 ， 如 get_length_of typel 和 get_ 
length_of type2， 就 相对 长 一 些 ， 而 且 可 能 调用 其 他 的 过 程 。 当 然 ， 一般 来 说 ， 类 型 的 数量 不 
止 两 个 ， 具 体 的 数量 依赖 于 被 汇编 的 语言 的 指令 的 类 型 以 及 指令 的 种 类 。 

采用 这 样 的 结构 化 编程 方式 除了 易于 编程 之 外 还 有 其 他 的 一 些 优点 。 如 果 同 时 有 多 个 人 
编写 汇编 器 ， 那 么 不 同 的 程序 员 可 以 编写 不 同 的 过 程 。 比 如 ， 如 何 获取 输入 的 繁琐 的 细节 都 
隐藏 在 read_next_line 过 程 中 。 如 果 由 于 操作 系统 发 生变 化 而 需要 改变 获取 输入 的 方式 ， 那 么 
也 只 需要 改变 这 个 子 过 程 ， 整 个 pass_one 过 程 则 不 受 任何 影响 。 

在 读 程序 的 同时 ， 第 一 趟 扫描 过 程 需要 分 析 每 一 行 来 寻找 操作 码 (例如 ，ADD )， 查 找 
其 类 型 ( 也 就 是 操作 数 的 模式 ) 并 计算 指令 长 度 。 这 些 信 息 在 第 二 趟 扫描 时 也 需要 ， 因 此 可 
以 把 这 些 信息 写 人 文件 以 减少 第 二 趟 扫描 时 分 析 的 工作 量 。 但 是 ， 写 入 文件 会 带 来 更 多 的 输 
入 /输出 操作 。 那 么 做 更 多 的 输入 /输出 来 减少 分 析 的 工作 量 ， 或 者 少 做 一 些 输 入 /输出 多 做 
一 些 分 析 的 工作 这 两 种 方案 哪 种 更 好 ， 是 由 CPU 和 磁盘 的 相对 速度 、 文 件 系统 的 效率 和 其 他 
的 一 些 因 素 决 定 的 。 在 图 7-9 的 例子 中 ， 我 们 把 类 型 、 操 作 码 、 长 度 和 实际 的 输入 行 写 人 了 
一 个 临时 文件 。 第 二 趟 扫描 时 就 可 以 读 这 个 临时 文件 而 不 用 再 读 初始 的 输入 文件 了 。 

读 到 END 伪 指 令 时 ， 第 一 趟 扫描 结束 。 有 必要 的 话 ， 可 以 在 此 时 对 符号 表 和 直接 量 表 进 
行 排序 。 排 序 后 的 直接 量 表 可 用 来 对 重复 项 进行 检查 ， 查 到 的 话 ， 可 以 把 重复 的 符号 删除 。 


382 


public static void pass_one() { 


RIF 


/此 过 程 是 一 个 简单 的 汇编 器 的 第 一 趟 扫描 过 程 的 基本 框架 。 


boolean more_input = true; 

String line, symbol, literal, opcode; 

int location_counter, length, value, type; 
final int END_STATEMENT = -2; 


/停止 第 一 趟 扫描 的 标记 
/指令 的 字段 

/用 到 的 内 部 变量 
/输入 结束 标记 


/汇编 的 第 一 条 指令 位 于 地 址 0 
// 通 用 的 初始 化 过 程 


// 结 束 时 more_input 将 被 赋值 为 
// 读 取 一 行 输入 

/指令 中 的 字 节 

// 指 令 的 类 型 


location_counter = 0; 
initialize_tables( ); 


while (more_input) { 
line = read_next line(); 
length = 0; 
type = 0; 
if (line_is_not_commenti(line)) { 
symbol = check_for_symbol(line); 。 // 该 行 有 标号 吗 ? 
if (symbol != null) // 如 果 有 标号 ， 记 录 标 号 和 值 
enter_new_symbol(symbol, location_counter); 
literal = check_for_literal(line); 1/ 该 行 包括 直接 量 吗 ? 
if (literal {= null) // 如 果 有 直接 量 ， 将 其 写 入 表 中 
enter_newiteral(literal); 


// 现 在 确定 操作 码 类 型 ， 一 1 表示 是 不 正确 的 操作 码 。 


opcode = extract_opcode(line); 1/ 获取 操作 码 的 符号 表示 
type = search_opcode_table(opcode); /查找 格式 ， 例 如 ，0P REG1, REG2 
if (type < 0) /如 果 不 是 操作 码 ， 那 是 伪 指 令 吗 ? 
type = Search_pseudo_table(opcode); 
switch(type) { /确定 指令 的 长 度 
case 1: length = get_length_of_type1(line); break; 
case 2: length = get_length_of_type2(line); break; 
// 其 他 的 类 型 在 这 里 添加 
} 
} 
write_temp_file(type, opcode, length, line); /第 二 趟 扫描 时 会 用 到 的 信息 
location_counter = location_counter + length; /修改 1oc_ctr 
if (type == END_STATEMENT) { /输入 结束 了 吗 ? 
more_input = false; /如 果 结 束 了 ， 执 行 后 续 工 作 
rewind temp_for_pass_two(); /可 能 重 写 临时 文件 
sort_literal_table( ); WHARF 
remove_redundant_literals( ); // 去 除 重复 的 直接 量 





图 7-9 一 个 简单 的 汇编 器 的 第 一 趟 扫描 


7.3.3 ”第 二 趟 扫描 


第 二 趟 扫描 的 功能 是 生成 目标 程序 ， 如 果 需 要 ， 还 可 以 打印 汇编 清单 。 另 外 ， 第 二 趟 扫 
描 还 必须 产生 链接 器 (linker) 需要 的 信息 ， 链 接 器 将 使 用 这 些 信 息 把 分 别 汇编 的 多 个 过 程 链 
接 成 一 个 单一 的 执行 文件 。 图 7-10 是 第 二 趟 扫描 的 过 程 框架 。 

第 二 趟 扫描 做 的 操作 和 第 一 趟 扫描 有 点 类 似 : 它 一 次 读 人 一 行 并 处 理 该 行 。 由 于 我 们 已 
经 把 类 型 、 操 作 码 和 长 度 写 在 了 每 行 的 开始 之 处 (在 一 个 临时 文件 中 )， 可 以 直接 读 和 人 它们 而 
节省 分 析 的 时 间 。 代 码 生成 的 主要 工作 是 由 过 程 eval_typel 和 eval_type2 等 完成 的 。 每 个 过 
程 处 理 一 类 指令 ， 比 如 一 个 操作 码 和 两 个 寄存 器 操作 数 就 是 一 种 类 型 。 它 生成 指令 的 二 进 制 
代码 ,用 code 返回 ， 然 后 write_output 把 它 写 和 人 文件。 更 常见 的 做 法 是 ，write_output 不 断 组 
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冲 需 要 写 人 文件 的 二 进 制 代码 ， 等 积累 到 足够 数量 时 再 一 次 写 人 若干 个 磁盘 块 中 ,这样 可 以 
提高 磁盘 的 工作 效率 。 


public static void pass_two() { 
/该 过 程 是 一 个 简单 的 汇编 器 的 第 二 趟 扫描 的 框架 。 
boolean more_input = true; /停止 第 二 趟 扫描 的 标记 
String line, opcode; // 指 令 的 字段 
int location_counter, length, type; /用 到 的 内 部 变量 
final int END_STATEMENT = -2; // 输 入 结束 标记 
final int MAX_CODE = 16; // 每 条 指令 代码 中 最 多 的 字 节 数 
byte code[] = new byte[MAX_CODE]; /保存 每 条 指令 生产 的 代码 


location_counter = 0; /从 地 址 0 的 第 一 条 指令 开始 汇编 


while (more_input) { // 输 入 结束 时 ，more_input 将 赋值 为 false 
type = read type(); / 读 取 下 一 行 的 类 型 字段 
opcode = read_opcode!(); // 读 取 下 一 行 的 操作 码 字段 
length = read_length(); // 获 得 下 一 行 的 长 度 字 段 
line = read_line(); // 读 取 实 际 的 输入 行 
if (type != 0) { 1/ 类 型 0 是 注释 行 
switch(type) { // generate the output code 
case 1: eval_type1(opcode, length, line, code); break; 
case 2: eval_type2(opcode, length, line, code); break; 
// 其 他 类 型 在 这 里 添加 
} 
】 
write_output(code); // 把 代码 写 入 二 机 制 执 行程 序 
write_listing(code, line); /打印 该 行 的 清单 
location_counter = location_counter + length; /修改 loc_ctr 


if (type == END_STATEMENT) { // 输 入 结束 了 吗 ? 
more_input = false; /如 果 结 束 了 ， 执 行 后 续 工 作 
finish_up(); 1/ 其 他 一 些 零 星 的 处 理 

} 








图 7-10 一 个 简单 的 编译 器 的 第 二 趟 扫描 


这 时 可 以 打印 最 初 的 源 语句 并 根据 源 语句 生成 目标 代码 (使 用 16 进 制 表 示 的 ) 也 可 以 把 

它们 放 人 缓冲 区 供 以 后 打印 。 然 后 调整 ILC， 就 可 以 接着 取 下 一 条 语句 了 。 

到 目前 为 止 ， 我 们 都 假定 源 程序 没有 任何 错误 。 任 何 编写 过 程序 的 人 ， 无 论 使 用 何 种 语 
， 都 知道 这 个 假设 有 多 大 的 理想 主义 色彩 。 下 面 是 一 些 常见 的 错误 : 

1 ) 使 用 了 一 个 没有 定义 过 的 符号 。 

2 ) 重复 定义 一 个 符号 。 

3) 操作 码 字段 并 不 是 一 个 合法 的 操作 码 。 

4) 没有 为 操作 码 提供 足够 的 操作 数 。 

5) 操作 码 的 操作 数 太 多 。 

6) 八进制 数 中 出 现 了 8 或 者 9。 

7) 非法 使 用 寄存 器 (比如 ， 跳 转 到 一 个 寄存 器 )。 

8 ) 没有 写 END 语句 。 

除 此 之 外 ,程序 员 还 会 犯 各 种 各 样 具 有 独创 性 的 错误 。 符 号 未 定义 错误 通常 是 由 于 输入 
错误 造成 的 ， 因 此 一 个 聪明 的 汇编 器 能 够 指出 和 未 定义 的 符号 最 接近 的 已 定义 符号 并 使 用 该 
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符号 来 取代 未 定义 的 符号 。 而 修改 其 他 类 型 的 错误 则 比较 困难 。 汇 编 器 处 理 一 条 出 错 语句 的 
最 好 方法 是 打印 错误 消息 然后 继续 汇编 下 面 的 语句 。 


7.3.4 ”符号 表 


在 汇编 过 程 的 第 一 趟 扫描 中 ， 汇 编 器 收集 了 符号 和 符号 值 的 信息 并 保存 在 一 张 符号 表 中 
用 于 第 二 趟 扫描 时 查找 。 可 以 使 用 几 种 不 同 的 方式 组 织 符号 表 。 下 面 我 们 简单 讨论 其 中 的 几 
种 。 所 有 的 方法 都 把 符号 表 模 拟 成 相 联 存储 器 〈associative memory )， 保 存 的 是 (AS, 值 ) 
对 。 给 定 一 个 符号 ， 相 联 存储 器 必须 找到 相应 的 值 。 

实现 符号 表 的 最 简单 的 技术 是 使 用 由 元 素 对 组 成 的 数组 ， 第 一 个 元 素 是 (或 者 指向 ) 符 
号 ， 第 二 个 元 素 是 (或 者 指向 ) 值 。 给 出 一 个 需要 查找 的 符号 后 ， 符 号 表 例 程 必须 顺序 查找 
符号 表 直 到 找到 匹配 为 止 。 使 用 这 种 方法 编程 很 容易 但 是 速度 很 慢 ， 因 为 平均 查找 长 度 是 表 
长 的 一 半 。 

另 一 种 组 织 符 号 表 的 方式 是 把 符号 排序 ， 查 找 符号 时 使 用 二 分 查找 (binary search) 算 
法 。 二 分 查找 算法 首先 把 要 查找 的 符号 和 表 的 中 间 一 项 进行 比较 。 如 果 符 号 的 字母 表 顺 序 在 
中 间 项 的 前 面 ， 那 么 符号 就 一 定 在 表 的 前 一 半 。 如 果 符 号 在 中 间 项 的 后 面 ， 那 么 符号 就 一 定 
在 表 的 后 一 半 。 如 果 符 号 等 于 中 间 项 ， 查 找 就 结束 了 。 

[Andy | 14025_[ 0] 


31253 | 4 | 
65254 


| 0 
| 6 | 
| 4 | 
| 4 | 
| 6 | 
| 0 | 
Eg 


34544 |6] 
34344 | I | 


a) 符号 表 、 值 和 从 符号 表 中 得 到 的 哈 希 代码 
哈 希 表 链表 
[Andy O p Maaren | 23267 | Dick sas) 
| J Reind | o | Wiebren | 34344 | | 
| J en [pa] 
| Hn | 3545 | J Frank | 14332 | 
| 
z 
= 
= 





[Hans | 44546 | - 32334 A 31253 |] 
17097 | + 65254 | | 

64533 | + 34544 | 47357_| | 
Roel 76764 


b) 使 用 符号 和 值 链表 的 8 项 哈 希 表 
图 7-11 了 哈 希 编码 


假定 中 间 项 不 等 于 需要 查找 的 符号 ,我 们 至 少 可 以 得 知 需要 查找 表 的 哪 一 半 。 然 后 ， 我 
们 可 以 继续 在 正确 的 那 一 半 上 应 用 二 分 查找 ， 或 者 得 到 一 个 匹配 ， 或 者 得 到 正确 的 匹配 所 在 
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的 表 的 1/4 块 。 递 归 使 用 该 算法 ， 一 张 了 个 表 项 的 表 大 约 比较 log 次 就 可 以 找到 相应 的 匹 
配 。 很 显然 ， 这 种 方法 比 顺 序 查找 要 快 得 多 ， 但 是 它 需 要 把 表 项 排序 。 

另 一 种 完全 不 同 的 模拟 相 联 存储 器 的 方式 是 一 种 称 为 哈 希 编码 (hash coding ) 的 技术 。 
这 种 技术 需要 一 个 哈 希 函数 把 符号 映射 到 0 ~ kl 范围 内 的 整数 上 。 一 种 可 能 的 哈 希 函数 是 
符号 中 字符 的 ASCII 码 相 乘 ， 忽 略 溢 出 ， 把 结果 模 丰 或 者 除 以 一 个 质数 。 实 际 上 ， 任 何 一 个 
可 以 均匀 分 布 输入 值 的 函数 都 可 以 作为 哈 希 函数 。 符 号 保存 在 由 上 个 模 ( bucket ) 组 成 的 表 
H, 个 槽 的 编号 是 0 ~ k-1。 所 有 符号 哈 希 到 i 的 (符号 , 值 ) 对 都 保存 在 哈 希 表 第 i 个 权 
所 指向 的 链表 中 。 当 一 张 哈 希 表 中 有 个 符号 和 k 个 权时 ， 链 表 的 平均 长 度 是 nn/k。 通 过 选 
择 近 似 等 于 的 k， 可 以 基本 上 通过 一 次 查找 就 找到 符号 。 通 过 调整 x， 我 们 可 以 减少 表 的 大 
小 ,但 是 查找 速度 也 相应 变 慢 。 哈 希 编码 如 图 7-11 所 示 。 


7.4 ”链接 和 加 载 


大 多 数 程序 都 不 止 一 个 过 程 。 一 般 来 说 ， 编 译 器 和 汇编 器 一 次 只 能 翻译 一 个 过 程 并 把 
结果 保存 到 磁盘 上 。 为 了 使 程序 能 够 正确 地 运行 ， 必 须 把 所 有 这 些 被 翻译 过 的 过 程 正 确 地 链 
接 在 一 起 。 如 果 没 有 使 用 虚拟 内 存 ， 那 么 链接 之 后 的 程序 还 必须 被 显 式 地 加 载 到 主 存 中 。 执 
行 这 些 功能 的 程序 一 般 称 为 链接 器 (linker )、 链 接 加 载 器 (linking loader) 和 链接 编辑 器 
(linkage editor )。 源 程序 的 完整 的 翻译 过 程 需要 两 个 步 又 ， 如 图 7-12 所 示 。 


可 执行 二 进 制 程序 








图 7-12 ”把 一 系列 独立 翻译 的 源 程序 合并 成 一 个 可 执行 的 二 进 制 程序 需要 使 用 链接 器 


1) 对 源 程序 中 的 过 程 进行 编译 或 者 汇编 。 

2 ) 链接 目标 模块 。 

第 一 步 工 作 由 编译 器 或 者 汇编 器 完成 ， 第 二 步 工 作 由 链接 器 完成 。 

从 源 程序 到 目标 程序 的 翻译 过 程 中 发 生 了 层次 的 变化 ， 因 为 源 语言 和 目标 语言 有 不 同 的 
指令 集 和 表示 法 。 而 链接 过 程 则 并 没有 发 生 层 次 的 变化 ， 因 为 链接 输入 和 链接 输出 是 同一 个 
虚拟 机 的 程序 。 链 接 器 所 作 的 工作 就 是 把 所 有 单独 编译 的 过 程 链接 到 一 起 形成 一 个 可 执行 的 
二 进 制 程序 ( executable binary program )。 在 Windows 系统 中 ， 目 标 程序 的 扩展 名 是 .obj 而 可 
执行 的 二 进 制程 序 的 扩展 名 是 .exe。 在 UNIX 系统 中 ， 目 标 程序 的 扩展 名 是 .o 而 可 执行 二 进 
制程 序 没有 扩展 名 。 

编译 器 和 汇编 器 把 每 一 个 源 过 程 都 作为 单独 的 实体 来 翻译 是 有 原因 的 。 如 果 一 个 编译 器 
或 者 汇编 器 一 次 就 把 一 系列 的 源 过 程 直接 翻译 成 一 个 能 够 运行 的 机 器 语言 程序 ， 那 么 改变 其 
中 某 一 个 源 过 程 中 的 一 条 语句 就 不 得 不 重新 编译 所 有 的 源 过 程 。 

如 果 使 用 图 7-12 所 示 的 目标 程序 与 执行 程序 相 分离 的 技术 ,那么 就 只 需要 重新 编译 被 修 
改 的 过 程 ， 没 有 改动 的 过 程 不 需要 重新 编译 ， 然 后 再 把 所 有 的 模块 重新 链接 一 遍 。 链 接 通 常 
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比 翻译 快 得 多 ， 因 此 这 种 翻译 加 链接 的 两 步 处 理 过 程 可 以 节省 大 量 的 开发 时 间 。 当 开发 由 数 
百 个 或 者 数 千 个 模块 组 成 的 程序 时 ， 这 种 收益 是 相当 可 观 的 。 


7.4.1 链接 器 的 处 理 过 程 


在 汇编 处 理 过 程 的 第 一 趟 扫描 开始 的 时 候 ， 指 令 位 置 计 数 回 的 值 是 0。 这 实际 上 相当 于 
假定 目标 模块 在 执行 时 位 于 从 虚拟 地 址 0 开始 的 地 址 空间 中 。 图 7-13 中 是 某 台 通用 计算 机 中 
的 4 个 目标 程序 模块 。 这 4 个 模块 开始 处 的 第 一 条 语句 都 是 一 条 跳 转 指令 ， 跳 转 到 模块 中 的 
一 条 MOVE 指令 。 


目标 模块 A 











MOVE P TO X 











BRANCH TO 200 





目标 模块 C 
















MOVERTOX 200 MOVESTOX 
BRANCH TO 200 0 BRANCH TO 200 





图 7-13 每 个 模块 都 有 从 0 开始 的 自己 的 地 址 空间 


为 了 使 程序 能 够 运行 ， 链 接 器 把 目标 模块 调 人 主 存 以 形成 可 执行 的 二 进 制程 序 的 映像 ， 
如 图 7-14a 所 示 。 其 主要 的 思想 是 在 链接 器 中 完成 可 执行 程序 的 正确 的 虚拟 地 址 空间 映像 ， 
并 把 所 有 的 目标 模块 放 在 正确 的 位 置 上 。 如 果 没 有 足够 的 (虚拟 ) 内 存 来 完成 映像 ， 就 使 用 
磁盘 文件 。 一 般 来 说 ， 从 地 址 0 开始 的 一 小 部 分 地 址 空间 是 用 于 中 断 向 量 、 和 操作 系统 通信 人、 
获取 没有 初始 化 的 指针 和 其 他 的 一 些 目 的 ， 因 此 程序 通常 是 从 大 于 0 的 地 址 开始 的 。 在 
图 7-14 中 ,我们 选择 了 随机 的 ) 从 地 址 100 开始 。 

图 7-14a 中 的 程序 虽然 已 经 装载 到 了 可 执行 二 进 制 文件 的 映像 中 ， 但 是 还 不 能 执行 。 请 
考虑 一 下 如 果 从 模块 A 的 第 一 条 指令 开始 执行 会 发 生 什 么 情况 。 程 序 将 不 会 正确 跳 转 到 
MOVE 指令 处 ， 因 为 这 条 指令 现在 在 地 址 300 处 。 实 际 上 ， 由 于 相同 的 原因 ， 所 有 引用 地 址 
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的 指令 都 会 出 错 。 
1800 MOVE STO X 
目标 模块 D 目标 模块 D 
1700 
on 
cia 
目标 模块 C 目标 模块 C 
1300 MOVE R TO X 
1100 
1000 调用 1100 
900 
800 MOVE QTOX 目标 模块 B MOVE QTOX 目标 模块 B 
700 
600 


300 | MOVEPTOX | 目标 模块 A 目标 模块 A 


200 
跳 转 至 200 跳 转 至 300 
100 
0 


a) 对 图 7-13 中 的 目标 模块 进行 了 重新 b) 执行 了 链接 和 重新 定位 后 的 相同 的 目标 模块 ， 
排列 ， 但 是 还 没有 重新 定位 和 链接 这 时 它们 就 形成 了 可 以 执行 的 二 进 制程 序 


图 7-14 














这 个 问题 被 称 为 重 定位 问题 (relocation problem )， 之 所 以 会 出 现 重 定位 问题 是 因为 
图 7-13 中 每 个 目标 程序 模块 都 有 自己 独立 的 地 址 空间 。 在 一 台 使 用 分 段 式 地 址 空间 的 计算 机 
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中 ， 比 如 x86 处 理 器 ， 从 理论 上 来 说 ， 只 要 把 各 个 目标 程序 模块 放 在 独立 的 段 中 它们 就 可 以 
使 用 自己 的 地 址 空间 。 但 是 ,在 x86 处 理 器 上 只 有 OS/2 操作 系统 支持 这 种 用 法 。 所 有 版 本 的 
Windows #il UNIX 都 只 支持 线性 地 址 空间 ， 因 此 所 有 的 目标 程序 模块 都 必须 被 合并 到 一 个 单 
一 的 地 址 空间 中 。 

另外 ,图 7-14a 中 的 过 程 调用 指令 也 不 能 正确 执行 。 在 地 址 400 处 ， 程 序 员 想 调 用 目 
标 模 块 B， 但 是 由 于 每 个 过 程 的 汇编 都 是 独立 进行 的 ， 所 以 汇编 器 无 法 知道 CALL B 指令 
所 需要 的 地 址 。 直 到 链接 时 才 知 道 目 标 模 块 B 的 地 址 。 这 个 问题 被 称 为 外 部 引用 (external 
reference )。 重 定位 问题 和 外 部 引用 问题 都 是 由 链接 器 来 解决 的 。 

链接 器 按照 下 面 的 步骤 把 不 同 地 址 空间 的 目标 程序 模块 合并 到 一 个 单一 的 线性 地 址 空间 中 : 

1) 构造 一 张 包括 所 有 的 目标 程序 模块 和 其 长 度 的 表 。 

2 ) 基于 这 张 表 ， 为 每 一 个 目标 程序 模块 分 配 一 个 起 始 地 址 。 

3) 找到 所 有 引用 内 存 地 址 的 指令 ， 给 地 址 加 上 一 个 重 定位 常量 (relocation constant ), 
该 常量 等 于 该 模块 的 起 始 地 址 。 

4) 找到 所 有 引用 其 他 过 程 的 指令 ， 在 适当 的 地 方 插入 这 些 被 引用 过 程 的 地 址 。 

下 面 是 为 图 7-14 中 的 模块 构造 的 目标 模块 表 ， 它 包括 模块 名 称 、 长 度 和 起 始 地 址 。 











图 7-14b 是 链接 器 对 7-14a 中 的 模块 执行 完 这 些 步骤 后 的 结果 
7.4.2 目标 模块 的 结构 


目标 模块 通常 包括 六 个 部 分 ， 如 图 7-15 所 示 。 第 一 部 分 
包括 模块 名 称 ， 链 接 器 需要 的 某 些 特定 信息 ， 比 如 模块 不 同 部 
分 的 长 度 等 ， 有 时 候 还 包括 汇编 日 期 。 

目标 模块 的 第 二 部 分 是 一 张 由 在 该 模块 中 定义 而 其 他 模块 
可 能 会 用 到 的 符号 组 成 的 表 ， 当 然 还 包括 符号 的 值 。 例 如 ， 如 






模块 结束 


重 定 位 字典 





果 一 个 模块 中 有 一 个 叫做 bigbug 的 过 程 ， 那 么 入 口 点 表 将 包 
括 字 符 串 “bigbug” 和 它 相 应 的 地 址 。 汇 编 语 言 程 序 员 通过 使 
用 图 7-2 中 所 示 的 PUBLIC 这 类 的 伪 指 令 把 符号 定义 为 入 口 点 
(entry point )。 

目标 模块 的 第 三 部 分 是 一 张 本 模块 中 使 用 ， 但 却 是 在 其 他 
模块 中 定义 的 符号 组 成 的 表 ， 同 时 还 有 一 张 使 用 这 些 符号 的 机 
器 指令 的 表 。 链 接 器 需要 使 用 后 一 张 表 把 正确 的 地 址 插入 使 用 


外 部 符号 的 指令 中 。 通 过 把 被 调用 的 过 程 的 名 字 声 明 为 是 外 部 的 ， 
独立 汇编 的 过 程 。 汇 编 语 言 程序 员 通 过 使 用 图 7-2 中 所 示 的 EXTERN 伪 指令 把 这 些 符 号 声明 


机 器 指令 和 常量 


中 7-15 ”翻译 器 产生 的 目标 
模块 的 内 部 结构 ， 
标识 域 首先 出 现 









为 外 部 符号 (external symbol )。 在 某 些 计算 机 中 ， 人 口 点 和 外 部 引用 被 放 在 一 张 表 中 。 


目标 模块 的 第 四 部 分 是 被 汇编 的 代码 和 常量 。 这 部 分 是 目标 模块 中 唯一 将 被 调 人 内 存 执 


行 的 部 分 。 其 他 五 部 分 只 是 供 链接 器 使 用 的 ， 在 执行 之 前 将 被 丢弃 。 


一 个 过 程 就 可 以 调用 其 他 


Lt SF 


389 


目标 模块 的 第 五 部 分 是 重 定位 字典 。 正 如 图 7-14 中 所 示 ， 引 用 内 存 地 址 的 指令 都 必须 加 
上 一 个 重 定位 常量 。 因 为 链接 器 没 法 知道 第 四 部 分 的 数据 中 哪些 是 指令 哪些 是 常量 ， 因 此 关 
于 重 定位 的 地 址 的 信息 就 由 这 张 表 提 供 。 该 表 可 以 采用 位 表 的 方式 组 织 ， 每 个 需要 重 定位 的 


地 址 占 一 位 ， 或 者 直接 列 出 需要 重 定位 的 地 址 。 


第 六 部 分 是 模块 结束 指 识 ， 有 时 候 设 置 一 个 校 验 和 来 检查 读 模 块 时 是 否 发 生 错误 ， 还 可 能 


包括 开始 执行 的 地 址 。 

大 多 数 链接 器 需要 两 趟 扫描 。 第 一 趟 扫描 时 链接 器 
读 所 有 的 目标 模块 并 建立 模块 名 称 长 度 表 和 由 所 有 的 人 口 
点 和 外 部 引用 组 成 的 全 局 符号 表 。 第 二 趟 扫描 时 一 次 读 入 
一 个 模块 ， 将 它 重 定位 后 链接 到 可 执行 二 进 制 文件 中 直到 
将 所 有 的 目标 模块 链接 完毕 。 


7.4.3 绑 定 时 间 和 动态 重 定位 


在 一 个 多 道 程序 系统 中 ， 一 个 程序 可 以 被 读 入 主 存 ， 
运行 一 段 时 间 之 后 ， 再 写 回 磁盘 ， 然 后 再 次 读 人 主 存 运 
行 。 在 一 个 同时 运行 许多 程序 的 大 系统 中 ， 很 难保 证 每 次 
都 把 程序 读 取 到 相同 的 内 存 位 置 上 。 

图 7-16 是 如 果 把 图 7-14b 中 已 经 重 定 位 过 的 程序 重 
新 调 人 到 地 址 400 处 而 不 是 链接 器 一 开始 调 人 的 地 址 100 
处 时 将 发 生 的 情况 。 所 有 的 内 存 地 址 都 不 正确 了 ， 而 且 重 
定位 信息 已 经 被 抛弃 了 ， 即 使 重 定位 信息 仍然 可 用 ， 但 如 
果 每 次 在 程序 被 交换 之 后 都 要 对 其 进行 重新 定位 ， 代 价 也 
是 相当 高 的 。 

这 种 已 经 被 链接 和 重 定 位 过 的 程序 的 移动 问题 是 和 
把 符号 名 绑 定 到 绝对 物理 内 存 地 址 上 的 完成 时 间 密 切 相关 
的 。 当 编写 程序 的 时 候 ， 它 只 包括 内 存 地 址 的 符号 名 ， 如 
BR L。 决 定 对 应 于 工 的 实际 主 存 地 址 的 时 间 点 称 为 绑 定 
时 间 (binding time )。 绑 定时 间 至 少 有 以 下 6 种 可 能 : 

1) 编写 程序 的 时 刻 。 

2) 翻译 程序 的 时 刻 。 

3 ) 程序 被 链接 但 未 加 载 的 时 刻 。 

4) 程序 加 载 的 时 刻 。 

5 ) 调和 人 用 于 寻 址 的 基 址 寄存 器 的 时 刻 。 

6) 包括 地 址 的 指令 执行 的 时 刻 。 

如 果 一 条 包括 地 址 的 指令 在 绑 定 之 后 移动 了 位 置 ， 执 
行 就 会 不 正确 (假定 它 引 用 的 对 象 也 被 移动 了 )。 如 果 翻 
译 器 在 产生 二 进 制 执 行程 序 时 进行 了 绑 定 ， 那 么 程序 就 必 
须 在 翻译 器 希望 的 地 址 运行 。 前 面 讨论 的 链接 方法 在 链接 
时 把 符号 名 绑 定 到 绝对 地 址 上 ， 这 就 是 链接 之 后 移动 程序 
位 置 会 出 错 的 原因 ， 如 图 7-16 所 示 。 





目标 模块 D 


目标 模块 C 


目标 模块 B 


目标 模块 A 


图 7-16 图 7-14 (b) 中 重 定位 过 的 
二 进 制 程序 被 上 移 了 300 个 
地 址 。 许 多 指令 现在 都 引用 
了 不 正确 的 地 址 
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这 里 涉及 两 个 相关 的 问题 。 首 先 一 个 问题 是 何 时 把 符号 名 绑 定 到 虚拟 地 址 。 其 次 一 个 问 
题 是 何 时 把 虚拟 地 址 绑 定 到 物理 地 址 。 只 有 这 两 个 操作 都 发 生 绑 定 才 算 完 成 。 当 链接 器 把 单 
独 地 址 空间 的 目标 模块 链接 到 一 个 线性 地 址 空间 中 时 ， 实 际 上 也 就 是 创建 了 一 个 虚拟 地 址 空 
间 。 重 定位 和 链接 实际 上 是 把 符号 名 绑 定 到 特定 的 虚拟 地 址 上。 无 论 是 否 使 用 虚拟 内 存 ， 这 
一 点 都 是 正确 的 。 

假定 图 7-14b 中 的 地 址 空间 是 分 页 的 。 很 显然 ， 符 号 名 A、B、C AID 对 应 的 虚拟 地 址 已 
经 被 决定 了 ， 虽 然 它 们 的 物理 地 址 依赖 于 运行 它们 的 时 刻 的 页 表 的 内 容 。 一 个 可 执行 的 二 进 
制程 序 已 经 完成 了 符号 名 到 虚拟 地 址 的 绑 定 。 

任何 一 种 易于 改变 虚拟 地 下 到 物理 地 址 映射 的 机 制 都 可 以 使 程序 在 内 存 中 的 移动 变 得 很 
方便 ， 甚 至 可 以 很 方便 地 在 虚拟 地 址 空间 中 移动 。 分 页 就 是 这 样 一 种 机 制 。 当 程序 在 内 存 中 
移动 时 ， 需 要 改变 的 只 是 页 表 而 不 是 程序 本 身 。 

[544] 第 二 种 机 制 是 使 用 运行 时 重 定位 寄存 器 。CDC 6600 计算 机 和 它 的 后 续 机 型 就 使 用 了 这 样 
的 寄存 器 ， 在 使 用 这 种 重 定位 技术 的 计算 机 中 ， 寄 存 器 总 是 指向 当前 程序 的 起 始 物理 内 存 地 
址 。 所 有 的 内 存 地 址 在 被 发 往 内 存 之 前 都 由 硬件 加 上 重 定位 寄存 器 的 值 。 整 个 重 定位 过 程 对 
用 户 程 序 来 说 是 透明 的 。 用 户 程序 甚至 根本 不 知道 发 生 过 重 定 位 。 当 程序 移动 时 ， 操 作 系 统 
必须 修改 重 定位 寄存 器 。 这 种 机 制 的 通用 性 比分 页 差 ， 因 为 整个 程序 必须 作为 一 个 整体 移动 
(除非 分 别 使 用 代码 和 数据 重 定位 寄存 器 ， 就 像 Intel 8088 那样 ， 在 Intel 8088 中 ， 程 序 可 以 
作为 两 个 单元 移动 )。 

在 可 以 使 用 相对 于 程序 计数 器 的 方式 访问 内 存 的 计算 机 中 还 可 以 使 用 第 三 种 机 制 。 许 多 
转移 指令 都 与 程序 计数 器 相关 。 这 时 ， 当 程序 在 主 存 中 移动 时 只 需要 修改 程序 计数 器 。 一 个 
程序 ， 如 果 它 的 所 有 内 存 访 问 或 者 是 相对 于 程序 计数 器 的 或 者 是 绝对 的 〈 比 如， 访问 位 于 绝 
对 地 址 的 输入 /输出 设备 寄存 器 )， 那 么 这 个 程序 就 是 位 置 无 关 (position independent ) 的 。 
一 个 位 置 无 关 的 过 程 可 以 放 在 虚拟 地 址 空间 中 的 任何 地 方 而 不 需要 进行 重 定位 。 


7.4.4 动态 链接 


在 7.4.1 节 中 讨论 的 链接 过 程 有 这 样 的 特点 : 程序 中 所 有 可 能 被 调用 的 过 程 在 程序 执行 前 
都 链接 在 一 起 了 。 在 使 用 虚拟 内 存 的 计算 机 中 ， 在 执行 之 前 完成 所 有 的 链接 不 能 充分 利用 虚 
拟 内 存 的 能 力 。 许 多 程序 都 有 一 些 只 有 在 不 正常 的 情况 下 才 会 被 调用 的 过 程 。 比 如 ， 编 译 器 
就 有 一 些 用 于 编译 很 少 使 用 的 语句 的 过 程 ， 还 有 一 些 用 于 处 理 很 少 发 生 的 错误 条 件 的 过 程 。 

一 种 更 灵活 的 链接 方式 是 在 第 一 次 调用 过 程 时 进行 链接 。 这 种 链接 方式 称 为 动态 链接 
(dynamic linking )。 最 早 的 动态 链接 是 在 MULTICS 中 实现 的 ，MULTICS 的 某 些 实现 即使 目 
前 看 来 都 是 无 法 超越 的 。 下 面 我 们 将 讨论 几 个 不 同系 统 中 的 动态 链接 。 

1.MULTICS 中 的 动态 链接 

在 MULTICS 中 ， 每 个 程序 都 有 一 个 链接 段 (linkage segment )， 该 段 为 每 个 可 能 被 调用 
的 过 程 都 放置 了 一 个 信息 块 。 该 信息 块 中 首先 是 一 个 保留 的 字 用 于 存放 过 程 的 虚拟 地 址 ， 然 
后 是 按 字符 串 保存 的 过 程 名 称 。 

当 使 用 动态 链接 时 ， 源 程序 中 的 过 程 调用 被 翻译 成 间接 寻 址 指令 ， 该 指令 指向 相应 的 链 
接 块 的 第 一 个 字 ， 如 图 7-17a 所 示 。 编 译 器 或 者 在 这 个 字 中 添 人 非法 地 址 或 者 放 信 导致 陷阱 

的 特殊 的 位 模式 。 
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CALL EARTH 
CALL WATER 


a) EARTH 调用 之 前 


[EARTH 















b) EARTH 调用 之 后 
图 7-17 动态 链接 


当 调 用 一 个 不 同 的 段 中 的 过 程 时 ， 访 问 非法 的 地 址 将 产生 一 个 陷阱 ， 对 于 该 陷阱 的 处 理 
将 调用 动态 链接 器 。 链 接 器 找到 非法 地 址 后 面 的 字符 串 ， 然 后 在 用 户 的 目录 空间 中 搜索 叫 这 
个 名 字 的 、 已 经 编译 的 过 程 ， 然 后 为 找到 的 过 程 分 配 一 个 虚拟 地 址 ， 一 般 是 在 自己 的 秘 有 段 
中 ,然后 用 这 个 虚拟 地 址 替换 掉 链 接 段 中 的 非法 地 址 ， 如 图 7-17b 所 示 。 接 下 来 ， 重 新 执行 
产生 链接 错误 的 指令 ， 这 样 程序 就 可 以 从 产生 陷阱 之 前 的 位 置 继续 执行 了 。 

后 面 遇 到 的 所 有 对 该 过 程 的 调用 都 将 正常 执行 而 不 会 产生 链接 错误 ， 因 为 那个 过 程 信 息 
块 的 间接 字 中 已 经 包括 了 正确 的 虚拟 地 址 。 相 应 地 ， 动 态 链接 器 也 只 是 在 过 程 第 一 次 被 调用 
时 用 到 。 

2. Windows 中 的 动态 链接 

所 有 版 本 的 Windows 操作 系统 ,包括 NT， 都 支持 动态 链接 ， 而 且 在 很 大 程度 上 依赖 于 
动态 链接 。Windows 中 的 动态 链接 使 用 一 种 称 为 动态 链接 库 (Dynamic Link Library, DLL ) 
的 特殊 文件 格式 。DLL 可 以 包括 过 程 和 数据 。 它 们 通常 用 于 两 个 或 者 更 多 的 进程 共享 过 程 库 
或 者 数据 。 许 多 DLL 都 使 用 扩展 名 .dll, 但 是 也 可 以 使 用 其 他 的 扩展 名 ,包括 .drv (设备 驱 
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SHEE ) 和 .fon (字体 库 )。 

DLL 最 常见 的 形式 是 一 个 由 多 个 过 程 组 成 的 ”用 户 进 程 1 用 户 进程 2 
库 ， 它 可 以 被 调和 内存， 同时 被 多 个 进程 访问 。 
图 7-18 是 两 个 进程 共享 一 个 包括 A、B、C 和 了 DD 四 
个 过 程 的 DLL 文件 的 情况 。 程 序 1 使 用 过 程 A; 
程序 2 使 用 过 程 C， 当 然 ， 它 们 也 可 以 使 用 相同 的 
过 程 。 

DLL 是 链接 器 从 一 系列 输入 文件 中 生成 的 。 实 
际 上 ， 生 成 DLL 文件 和 生成 可 执行 二 进 制 程序 很 类 
似 ,不 同 之 处 在 于 需要 给 链接 器 一 个 特殊 的 标志 来 
告诉 链接 器 要 生成 的 是 DLL 文件 。DLL 一 般 是 从 可 
能 被 多 个 进程 使 用 的 一 些 库 过 程 中 生成 的 。Windows 系统 调用 库 的 接口 过 程 和 大 的 图 形 库 都 

547| 是 DLL 的 常见 的 例子 。 使 用 DLL 可 以 节省 内 存 和 磁盘 的 空间 。 如 果 把 一 个 常用 的 库 静 态 地 
绑 定 到 每 一 个 使 用 它 的 程序 中 ， 它 将 会 出 现在 许多 执行 程序 中 ， 这 样 就 浪费 了 内 存 和 磁盘 空 
间 。 而 使 用 DLL， 每 个 库 只 在 磁盘 和 内 存 中 出 现 一 次 。 

除了 能 够 节省 空间 之 外 ， 使 用 DLL 还 可 以 很 容易 地 修改 库 过 程 ， 即 使 在 使 用 它们 的 程序 
已 经 编译 和 链接 之 后 也 可 以 对 它们 进行 修改 。 对 于 用 户 很 少 能 获得 源码 的 商用 软件 来 说 ， 使 
用 DLL 意味 着 软件 开发 商 可 以 通过 在 互联 网 上 重新 发 行 新 的 DLL 文件 的 方式 来 修补 程序 中 
的 错误 ， 而 不 需要 对 主 程 序 做 任何 改动 。 

DLL 和 一 个 可 执行 库 主要 的 不 同 在 于 DLL 不 能 自己 独立 运行 ( 因为 它 没有 主 程序 )。 它 
们 的 头 部 信息 也 不 同 。 另 外 ，DLL 作为 一 个 整体 还 有 几 个 和 库 中 的 过 程 无 关 的 额外 的 过 程 。 
例如 ，DLL 中 有 一 个 过 程 ， 每 当 有 新 的 进程 绑 定 DLL 时 就 自动 被 调用 ， 还 有 一 个 过 程 是 每 当 
有 进程 解除 和 该 DLL 的 绑 定 时 自动 被 调用 。 这 些 过 程 的 功能 是 分 配 和 回收 内 存 或 管理 DLL 
需要 的 其 他 的 资源 。 

有 了 两 种 方式 把 一 个 程序 绑 定 到 一 个 DLL 上 。 第 一 种 方式 称 为 隐 式 链接 (implicit linking ), 
用 户 程 序 静态 地 链接 到 一 个 称 为 导入 库 (import library) 的 特殊 文件 上 ， 导 和 人 库 是 由 一 个 实 
用 程序 从 DLL 中 选取 某 些 信息 生成 的 。 用 户 程序 通过 使 用 导入 库 可 以 访问 DLL。 一 个 用 户 
程序 可 以 链接 到 多 个 导入 库 上 。 当 一 个 使 用 隐 含 链接 的 程序 被 加 载 至 内 存 准 备 执 行 的 时 候 ， 
Windows 将 检查 所 有 用 到 的 DLL 是 否 已 经 在 内 存 中 。 不 在 内 存 中 的 DLL 将 被 立即 加 载 至 内 
存 ( 当然 不 需要 全 部 调 入 内存 ， 因 为 内 存 是 分 页 的 )。 然 后 对 导 人 库 的 数据 结构 作 一 些 改 动 以 
便 找 到 调用 过 程 ， 这 一 步 有 点 类 似 于 图 7-17。DLL 也 被 映射 到 程序 的 虚拟 地 址 空间 中 。 这 时 ， 
用 户 程 序 已 经 做 好 运行 的 一 切 准 备 了 ， 它 已 经 可 以 和 静态 调用 一 样 来 调用 DLL 中 的 过 程 了 。 

DLL 的 第 二 种 链接 方式 是 显 式 链接 (explicit linking )。 这 种 方式 不 需要 使 用 导 人 库 ， 也 
不 需要 在 加 载 用 户 程序 时 同时 加 载 DLL。 相 反 ， 用 户 程序 可 以 在 运行 时 通过 明确 的 调用 来 绑 
定 DLL， 然 后 通过 额外 的 调用 来 获得 需要 使 用 的 过 程 的 地 址 。 一 旦 找到 了 地 址 ， 就 可 以 调用 
过 程 了 。 当 所 有 的 工作 都 完成 以 后 ， 用 户 程序 可 以 使 用 一 个 最 终 的 调用 和 DLL 脱离 关系 。 当 
所 有 的 进程 都 和 DLL 解除 绑 定 后 ， 操 作 系 统 就 会 把 DLL 从 内 存 中 调 出 。 

很 重要 的 一 点 是 DLL 中 的 过 程 并 没有 自己 的 标识 符 (线程 和 进程 是 有 标识 符 的 )。 它 在 
调用 者 的 线程 中 运行 并 使 用 调用 者 的 栈 存 放 自 己 的 局 部 变量 。 它 可 以 有 进程 定义 的 静态 数据 

[548] ”和 共享 数据 ， 除 此 之 外 都 和 静态 链接 的 过 程 一 样 。 唯 一 重要 的 区 别 就 是 执行 时 如 何 绑 定 。 





图 7-18 两 个 进程 使 用 一 个 DLL 文件 
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3. UNIX 中 的 动态 链接 

UNIX 中 使 用 的 动态 链接 机 制 和 Windows 的 DLL 基本 类 似 ， 名 称 叫做 共享 库 (shared 
library )。 和 DLL 文件 一 样 ， 一 个 共享 库 可 以 包括 多 个 过 程 或 者 数据 模块 ， 在 运行 时 调 人 内 存 
并 可 以 同时 被 多 个 进程 访问 。 标 准 的 C 语言 库 和 许多 网 络 代码 都 是 共享 库 。 

UNIX 只 支持 隐 式 链接 ， 一 个 共享 库 由 两 部 分 组 成 :一 部 分 是 宿主 库 ( host library )， 它 
静态 链接 到 执行 文件 上 ;另外 一 部 分 是 目标 库 (target library )， 目 标 库 运 行 时 才 调 用 。 虽 然 
细节 不 同 ， 但 是 基本 概念 和 DLL 是 一 样 的 。 


7.5 小 结 


虽然 大 多 数 程序 可 以 也 应 该 使 用 高 级 语言 编写 ， 但 是 在 某 些 情况 下 汇编 语言 也 是 必 不 可 
少 的 。 在 缺乏 资源 的 移动 计算 设备 中 使 用 的 程序 一 般 都 需要 使 用 汇编 语言 ， 智 能 卡 、 科 学 仪 
器 中 的 嵌入 式 处 理 器 、 无 线 的 便携 式 数字 助理 都 属于 这 类 移动 计算 设备 。 汇 编 语 言 程序 是 底 
层 机 器 语言 程序 的 符号 表示 。 汇 编 器 负责 把 汇编 语言 程序 翻译 成 机 器 语言 程序 。 

程序 的 执行 速度 对 于 某 些 应 用 来 说 是 至 关 重 要 的 ， 对 于 这 些 应 用 来 说 ， 单 纯 使 用 汇编 语 
言 编写 程序 并 不 是 最 好 的 方案 ， 更 好 的 方法 是 首先 使 用 高 级 语言 编写 整个 程序 ， 然 后 测量 程 
序 的 执行 时 间 ， 最 后 使 用 汇编 语言 重新 编写 其 中 最 费时 间 的 部 分 。 这 样 做 的 依据 是 在 实际 使 
用 中 ,通常 程序 的 大 部 分 执行 时 间 都 花费 在 一 小 部 分 代码 上 。 

许多 汇编 器 都 提供 了 宏 ， 程序 员 可 以 使 用 宏 为 常用 的 代码 序列 起 个 符号 名 ， 这 样 可 以 方 
便 后 面 的 引用 。 一 般 来 说 ， 这 些 宏 还 可 以 直 被 接 参 数 化 。 宏 是 使 用 一 系列 字符 串 处 理 算法 实 
现 的 。 

大 多 数 汇编 器 都 使 用 两 趟 扫描 技术 。 第 一 趟 扫描 建立 一 张 符号 表 ， 符 号 表 中 主要 存放 标 
号 、 直 接 量 和 显 式 声明 的 标识 符 。 这 些 符 号 可 以 采用 无 序 的 方式 保存 ， 然 后 执行 顺序 查找 ， 
或 者 首先 排序 然后 进行 二 分 查找 ， 或 者 使 用 哈 希 技术 。 如 果 在 第 一 趟 扫描 过 程 中 不 需要 删除 
符号 ， 险 希 是 最 好 的 方法 。 第 二 趟 扫描 执行 代码 生成 。 某 些 伪 指 令 在 第 一 趟 扫描 中 处 理 ， 而 
另 一 些 在 第 二 趟 扫描 中 处 理 。 

独立 汇编 的 程序 可 以 被 链接 到 一 起 形成 一 个 可 以 运行 的 可 执行 二 进 制程 序 。 这 部 分 工作 
是 链接 器 完成 的 。 链 接 器 的 主要 任务 是 重 定位 和 绑 定 符号 名 。 动 态 链接 是 指 直到 实际 调用 某 
个 过 程 时 才 链 接 该 过 程 的 一 种 技术 。Windows DLL 和 UNIX 的 共享 库 都 使 用 动态 链接 技术 。 


习题 


1. 在 某 个 程序 中 ，2% 的 代码 占用 了 50% 的 执行 时 间 。 试 比较 使 用 下 面 三 种 开发 策略 的 编程 
时 间 和 程序 执行 时 间 。 假 定 使 用 C 语言 编写 该 程序 需要 100 个 人 月 ， 使 用 汇编 语言 ， 开 发 
难度 是 C 语言 的 10 信 而 执行 速度 是 C 语言 的 4 倍 。 

a. 使 用 C 语言 编写 整个 程序 。 
b. 使 用 汇编 语言 编写 整个 程序 。 
c. 先 使 用 C 语言 编写 ， 然后 把 其 中 2% 的 关键 代码 使 用 汇编 语言 重 写 。 

2. 汇编 器 使 用 的 两 趋 扫 描 技 术 可 以 用 于 编译 器 吗 ? 

a. 假定 编译 器 产生 目标 模块 而 不 是 汇编 代码 。 
b. 假定 编译 器 生成 符号 汇编 语言 。 
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操作 数 。 如 果 把 两 者 的 次 序 交 换 将 会 出 现 什 么 问题 ? 该 如 何 解 决 ? 

下 面 的 程序 可 以 使 用 两 趟 扫描 汇编 吗 ? EQU 是 一 个 伪 指 令 ， 它 把 前 面 的 标号 定义 为 操作 数 
域 的 表达 式 。 


PEQUQ 
QEQUR 
REQUS 
SEQU4 


. Dirtcheap 软件 公司 计划 为 某 台 48 位 字 长 的 计算 机 编写 一 个 汇编 器 。 为 了 降低 成 本 ， 项 目 
经 理 ，Scrooge 博士 ， 决 定 限制 允许 使 用 的 标识 符 的 长 度 以 便 使 每 一 个 标识 符 都 可 以 存储 在 
一 个 字 中 。Scrooge 博士 宣布 ， 标 识 符 只 能 由 字母 组 成 ， 但 是 禁止 使 用 字母 Q (以 此 来 表示 
他 们 对 客户 效率 的 关心 )。 那 么 标识 符 的 最 大 长 度 是 多 少 ? 描述 你 的 编码 规则 。 

指令 和 伪 指 令 的 有 哪些 区 别 ? 

. 指令 位 置 计数 器 和 程序 计数 器 都 记录 了 程序 中 下 一 条 指令 的 位 置 ， 它 们 有 区 别 吗 ? 如 果 有 ， 


Ww 


na 


wn 
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是 什么 ? 
8. 列 出 扫描 完 下 面 的 x86 汇编 程序 之 后 的 符号 表 。 为 第 一 条 语句 分 配 的 地 址 是 1000。 

EVEREST: POP BX (一 个 字 节 ) 
K2: PUSH BP (—A #4) 
WHITNEY: MOV BPSP (BASH) 
MCKINLEY: PUSH X (三 个 字 节 ) 
FUJI: PUSH SI (一 个 字 节 ) 
KIBO: SUB SI,300 (三 个 字 节 ) 


. 你 能 设想 出 一 种 允许 汇编 语言 使 用 操作 码 作为 标号 的 情况 吗 〈 例 如 ， 把 MOV 作为 标号 ) ? 

讨论 你 的 想法 。 

10. 列 出 使 用 二 分 查找 在 下 面 的 列表 中 查找 Berkeley 的 步骤 :Ann Arbor, Berkeley, Cambridge, 
Eugene, Madison, New Haven, Palo Alo, Pasadena, Santa Cruz, Stony Brook, Westwood, 
Yellow Springs。 当 需要 计算 只 有 奇数 个 元 素 的 列表 的 中 间 元 素 时 ， 选 取 中 间 索 引 值 之 后 
的 那个 元 素 。 

11. 当 表 中 的 元 素 个 数 是 质数 时 可 以 使 用 二 分 查找 吗 ? 

12. 计算 下 列 符号 的 哈 希 函数 值 ， 哈 希 函 数 是 把 字母 的 值 (A=1，B=2， 依 此 类 推 ) 相 加 然后 
对 哈 希 表 的 大 小 取 模 。 哈 希 表 的 大 小 为 19， 标 号 为 1 ~ 18。 

Els, jan, jelle, maaike 
每 个 符号 的 哈 希 值 都 是 不 同 的 吗 ? 如 果 不 是 ， 如 何 解 决 冲突 问题 ? 

13. 本 章 中 讨论 的 哈 希 编码 方法 使 用 链表 保存 哈 希 值 相同 的 元 素 。 男 一 种 方法 是 只 使 用 一 张 n 
个 位 置 的 表 ， 每 个 位 置 只 能 存在 一 个 主键 和 相应 的 值 (或 者 是 指向 值 的 指针 )。 如 果 哈 希 
函数 产生 的 位 置 已 经 被 占用 了 ， 就 尝试 使 用 第 二 个 哈 希 函数 。 如 果 还 是 满 的 ， 再 使 用 第 三 
个 ， 依 此 类 推 ， 直 到 找到 一 个 空位 置 为 止 。 如 果 表 的 使 用 率 是 尺 ， 那 么 在 加 入 一 个 新 的 表 
项 时 尝试 次 数 的 平均 数 是 多 少 ? 

14. 随 着 技术 的 进步 ， 某 一 天 人 们 可 以 把 数 千 个 相同 的 CPU 放 在 一 块 芯片 上 ， 每 个 CPU 都 有 
自己 的 本 地 内 存 。 如 果 所 有 的 CPU 都 可 以 读 写 三 个 共享 的 寄存 器 ， 那 么 如 何 实 现 相 联 存 
储 器 呢 ? 

15. x86 处 理 器 使 用 的 是 分 段 式 体系 结构 ， 各 个 段 之 间 是 独立 的 。 某 个 用 于 x86 处 理 器 的 汇编 
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器 使 用 了 一 条 伪 指 令 SEG N 来 通知 汇编 器 把 相应 的 代码 和 数据 放 入 段 N。 这 种 做 法 对 ILC 
有 影响 吗 ? 

16. 程序 经 常会 链接 到 多 个 DLL 上 。 如 果 把 所 有 的 过 程 都 集中 到 一 个 大 的 DLL 中 会 提高 程序 
的 效率 吗 ? 

17. 一 个 DLL 可 以 被 映射 到 两 个 进程 的 虚拟 地 址 空间 的 不 同 的 虚拟 地 址 上 吗 ? 如 果 这 样 做 ， 
会 出 现 什么 问题 ? 这 些 问 题 可 以 解决 吗 ? 如 果 不 能 解决 ， 怎 么 排除 这 些 问 题 ? 

18. 下 面 是 一 种 静态 链接 的 方法 。 在 扫描 库 之 前 ， 链 接 器 首先 构造 需要 使 用 的 过 程 的 列表 ， 也 
就 是 把 被 链接 的 模块 中 的 EXTERN 定义 取出 来 。 然 后 链接 器 再 顺序 扫描 整个 库 ， 取 出 列 
表 中 的 每 个 过 程 。 这 种 方法 可 以 工作 吗 ? 为 什么 ?如果 不 能 工作 ， 又 该 如 何 修改 呢 ? 

19. 寄存 器 可 以 被 用 作 宏 调用 的 实 参 吗 ? 常量 呢 ? 说明 原因 。 

20. 你 准备 实现 一 个 宏 汇 编 器 。 出 于 某 种 原因 ， 你 的 老板 决定 宏 定 义 可 以 不 出 现在 宏 调 用 前 。 
这 一 决定 对 实现 来 说 隐 含 了 什么 ? 

21. 设计 一 种 使 宏 汇 编 器 进入 无 限 循环 的 方法 。 

22. 一 个 链接 器 读 和 人 五 个 长 度 分 别 为 200、800、600、500 和 700 个 字 的 模块 。 如 果 它 们 按照 

顺序 被 调 人 ， 重 定位 常量 是 多 少 ? 

. 编写 一 个 由 下 面 两 个 例 程 组 成 的 符号 表 程序 包 : enter (symbol, value ) 和 lookup (symbol, 
value )。 前 一 个 例 程 为 表 加 入 新 符号 ， 后 一 个 用 于 在 表 中 查找 符号 。 可 以 使 用 某 种 形式 的 
哈 希 编码 。 

24. 重复 前 面 的 题目 ， 只 是 不 再 使 用 哈 希 表 ， 当 最 后 一 个 符号 输入 完毕 ， 对 表 进 行 排序 并 且 使 
用 二 分 查找 算法 找到 符号 。 

25. 为 第 4 章 中 讨论 的 Mac-l 计算 机 编写 一 个 简单 的 汇编 器 。 除 了 处 理 机 器 指令 之 外 ， 还 要 提 
供 为 常量 定义 标识 符 的 机 制 和 把 一 个 常量 汇编 成 机 器 字 的 方法 。 使 用 伪 代 码 编写 。 

26. 在 你 为 上 一 题 编写 的 汇编 器 的 基础 上 ， 增 加 简单 的 宏 处 理 机 制 。 
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并 行 计算 机 体系 结构 





尽管 计算 机 的 速度 不 断 提 高 ， 但 人 们 对 计算 机 性 能 的 要 求 也 越 来 越 高 。 天 文学 家 希望 使 
用 计算 机 来 模拟 整个 宇宙 演化 的 过 程 ， 从 大 爆炸 开始 直到 宇宙 消亡 。 药 物 学 家 希望 使 用 计算 
机 设计 用 于 治疗 特殊 疾病 的 药品 ， 这 样 就 可 以 避免 牺牲 大 批 无 境 的 老鼠 。 飞 机 设计 师 总 是 希 
望 能 设计 出 更 加 节约 燃料 的 飞机 ， 如 果 他 可 以 使 用 计算 机 ， 就 可 以 不 用 建造 飞机 的 风 洞 模型 
了 。 总 而 言 之， 无 论 现在 计算 机 的 能 力 多 么 强大 ， 对 于 许多 用 户 来 说 ， 尤 其 是 把 计算 机 用 于 
科学 计算 、 工 程 和 工业 设计 的 用 户 来 说 ,仍然 远 远 不 够 。 

虽然 时 钟 速度 还 在 继续 增加 ， 而 芯片 的 速度 却 不 可 能 无 限 地 提高 。 设 计 高 性 能 计算 机 时 ， 
光速 是 一 个 主要 的 障碍 ， 目 前 看 来 ， 使 电子 或 者 光子 的 速度 超过 光速 的 希望 很 避 荡 。 而 散热 
问题 正 把 超级 计算 机 变 成 一 台 现代 化 的 空调 器 。 另 外 ， 随 着 晶体 管 尺 寸 的 不 断 缩 小 ， 每 个 晶 
体 管 可 能 只 有 很 少 的 几 个 原子 ， 这 时 量子 效应 (Heisenberg 测 不 准 原理 ) 将 成 为 一 个 主要 的 
问题 。 

因此 ， 为 了 使 计算 机 能 够 处 理 越 来 越 复 杂 的 问题 ， 计 算 机 体系 结构 设计 者 把 注意 力 转 向 
了 并 行 计 算 机 。 虽 然 我 们 不 可 能 设计 一 台 只 有 一 个 CPU 而 周期 为 0.001 纳 秒 的 计算 机 ， 但 是 
我 们 可 以 设计 出 具有 1000 个 CPU， 每 个 CPU 的 周期 为 1 纳 秒 的 计算 机 。 虽 然 ， 后 一 种 设计 
中 使 用 的 CPU 比 前 一 种 要 慢 很 多 , 但 是 从 理论 上 说 ,它们 的 计算 能 力 是 相同 的 。 从 这 里 ,我 
们 看 到 了 希望 。 

可 以 在 不 同 的 层次 引入 并 行 机 制 。 在 最 底层 ， 通 过 流水 线 和 使 用 多 个 功能 单元 的 超标 量 
设计 ， 可 以 将 并 行 加 入 CPU 芯片 。 也 可 以 通过 使 用 隐 式 并 行 的 超 长 指令 字 来 加 入 并 行 。 此 
外 ，CPU 中 能 够 加 入 一 些 特殊 的 特性 来 同时 控制 多 线程 。 最 后 ， 多 个 CPU 还 可 以 放 到 同一 个 
芯片 里 。 如 果 将 各 种 特征 都 集中 起 来 使 用 ， 那 么 新 的 设计 可 能 将 会 比 纯粹 串 行 的 设计 要 快 10 
倍 以 上 。 

接 下 来 一 个 层次 ， 可 以 将 具有 额外 处 理 能 力 的 附加 CPU 板 加 入 到 系统 中 。 通 常 ， 这 些 插 
件 CPU 都 具有 特殊 的 功能 ,例如 网 络 分 组 处 理 、 多 媒体 处 理 或 者 加 密 解 密 等 。 对 于 某 些 特殊 
应 用 ,它们 能 够 将 性 能 提高 5 ~ 10 倍 。 

然而 ， 如 果 想 要 将 性 能 提高 百倍 、 千 倍 甚至 百 万 倍 ， 就 必须 要 使 用 多 个 CPU， 让 它们 一 
起 高 效 工作 。 这 种 思想 造就 了 大 规模 多 处 理 器 和 多 计算 机 系统 (集群 计算 机 )。 毫 无 疑问 ,将 
成 千 上 万 的 处 理 器 联结 成 一 个 大 的 系统 必然 会 带 来 需要 解决 的 新 问题 。 

最 后 ， 现 在 已 经 有 可 能 通过 互联 网 将 分 散 的 整个 组 织 集成 到 一 起 ， 形 成 一 种 非常 松散 夺 
合 的 计算 网 格 。 这 些 系 统 只 是 刚刚 开始 出 现 ， 但 是 它们 对 于 未 来 而 言 具有 极其 吸引 人 的 潜力 。 

当 两 个 CPU 或 者 处 理 元 件 紧 密 连 在 一 起 的 时 候 ， 它 们 之 间 具 有 高 带宽 和 低 延 时 ， 而 且 是 
亲密 计算 ， 此 时 称 它们 为 紧密 耦合 〈tightly coupled )。 相 反 ， 当 它们 间隔 较 远 ， 具 有 低 带 宽 高 
延 时 ， 而 且 是 远程 计算 ， 此 时 称 它们 为 松散 耦合 (loosely coupled )。 本 章 我 们 就 来 分 析 这 些 
各 种 形式 并 行 的 设计 原理 并 且 研 究 一 些 例 子 。 我 们 将 从 最 紧密 耦合 的 系统 开始 ， 也 就 是 那些 
使 用 芯片 内 并 行 的 系统 ， 然 后 逐步 转 到 越 来 越 松 散 耦 合 的 系统 ， 最 终 对 网 格 计算 进行 简短 介 
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绍 。 图 8-1 给 出 了 粗略 的 图 谱 。 





K 
计算 机 
共享 内 存 
协 处 理 器 M ST 
线程 CPU 
CPU 
互联 
CPU i [M] 7 
mpi } 
主 CPU CPU E 
紧密 耦合 松散 耦合 
a) 片 内 并 行 b) 协 处 理 器 。 c) 多 处 理 器 d) 多 计算 机 e) 网 格 
图 8-1 


并 行 的 所 有 问题 ， 从 图 谱 中 的 一 端 到 另 一 端 ， 都 是 研究 的 热点 。 相 应 地 ， 本 章 中 给 出 了 
很 多 参考 文献 ， 主 要 是 有 关 本 章 主 题 最 近 的 一 些 论文 。 此 外 ， 很 多 会 议论 文集 和 期 刊 上 也 发 
表 了 相关 的 论文 ， 各 种 文献 资料 正在 快速 增加 。 


8.1 片 内 并 行 


增加 芯片 吞吐 量 的 一 种 方法 是 让 它 在 同一 时 间 内 做 更 多 的 事 ， 换 名 话说 就 是 开发 并 行 性 。 
在 这 一 节 中 ,我们 将 着 眼 于 一 些 通过 芯片 级 的 并 行 实现 加 速 的 方法 ， 包 括 指令 级 并 行 、 多 线 
程 以 及 在 一 个 芯片 上 集成 多 个 CPU。 虽 然 这 些 技术 差别 很 大 ， 但 是 每 一 种 都 以 它们 特有 的 方 
式 起 作用 。 几 乎 在 所 有 的 方法 中 ， 核 心 的 指导 思想 都 是 在 同一 时 间 内 完成 更 多 的 工作 。 


8.1.1 指令 级 并 行 


在 最 底层 ， 实 现 并 行 的 一 种 方法 就 是 在 一 个 时 钟 周 期 内 发 射 多 条 指令 。 多 发 射 CPU 可 以 
分 为 两 类 : 超标 量 处 理 器 和 超 长 指令 字 处 理 器 (Very Long Instruction Word, VLIW )。 事 实 上 ， 
这 些 内 容 在 本 书 的 前 面 都 已 经 提 到 过 ， 在 这 里 再 次 复习 这 些 材料 也 许 会 有 比较 有 用 。 

前 面 我 们 已 经 看 到 过 超标 量 CPU ( 例如 图 2-5 )。 在 最 常见 的 结构 中 ， 流 水 线 中 某 个 确定 
点 只 有 一 条 指令 准备 执行 。 而 超标 量 CPU 在 一 个 时 钟 周期 内 可 以 发 射 多 条 指令 到 执行 单元 。 
实际 发 射 的 指令 数 取决 于 处 理 器 的 设计 和 当前 的 环境 。 硬 件 决定 了 可 以 发 射 的 指令 的 最 大 数 
E, 通常 是 2 至 6 条 指令 。 然 而 ， 如 果 一 条 指令 所 需要 的 功能 单元 暂时 不 可 用 ,或 结果 还 没 
有 被 计算 出 来 ， 那么 这 条 指令 就 不 会 发 射 。 

另 一 种 指令 级 并 行 的 形式 是 超 长 指令 字 处 理 器 。 在 最 初 的 形式 里 ，VLIW 机 器 确实 具有 
包含 许多 指令 的 长 指令 字 ， 这 些 指 令 使 用 许多 功能 单元 。 例 如 图 8-2a 中 的 流水 线 ， 机 器 具有 
5 个 功能 单元 ， 能 够 同时 执行 2 个 整数 操作 、1 个 浮 点 操作 、1 个 加 载 操作 以 及 1 个 存储 操作 。 
这 人 台 机 器 的 一 条 VLIW 指令 包含 5 个 操作 码 和 5 对 操作 数 ， 每 个 功能 单元 1 个 操作 码 ，1 对 
操作 数 。 按 每 个 操作 码 6 位 ， 每 个 寄存 器 5 位 ， 每 个 内 存 地 址 32 位 来 算 ， 一 条 指令 很 容易 就 
达到 134 位 一 一 确实 非常 长 。 

然而 ， 这 样 的 设计 太 严 格 ， 因 为 并 非 每 一 条 指令 都 能 够 利用 每 一 个 功能 单元 ， 这 导致 使 
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用 许多 无 用 的 空 操作 符 作 为 填充 ， 如 图 8-2b 所 示 。 因 此 ， 现 代 的 VLIW 机 器 有 一 种 途径 标记 
一 东 指 令 ， 使 它们 成 为 一 个 指令 束 ， 例 如， 加 入 一 个 “ 束 结束 ”位 ， 如 图 8-2c 所 示 。 处 理 器 
能 够 取 到 整个 束 ， 并 将 它们 一 次 性 发 射 。 当 然 这 要 取决 于 编译 器 准备 相 容 的 指令 束 。 




















a) CPU 流水 线 无 操作 
VLIW 指 令 
b) VLIW 指 令 序 列 
RA RIS 
Uy 
OR 
c) 带 有 束 标记 的 指令 流 
图 8-2 


实际 上 ，VLIW 将 确定 哪些 指令 可 以 一 起 发 射 的 任务 从 运行 时 转移 到 编译 时 。 这 种 选择 
不 仅 使 硬件 更 加 简单 和 高 速 ， 而 且 优化 的 编译 器 根据 需要 可 以 运行 更 长 时 间 ， 这 样 在 装配 指 
令 束 方 面 能 够 比 在 运行 时 由 硬件 进行 装配 做 得 更 好 。 当 然 ,在 CPU 体系 结构 中 ， 如 此 根本 性 
的 变化 在 引入 时 很 困难 ，Itanium 经 过 了 很 长 时 间 才 被 接受 就 证 明了 这 一 点 。 

顺便 提 一 下 ， 值 得 注意 的 是 指令 级 并 行 并 不 是 唯一 的 低层 并 行 。 另 一 种 是 存储 器 级 并 行 。 
在 存储 器 级 并 行 中 ， 同 一 时 间 内 许多 存储 器 操作 同时 执行 (Chou 等，2004)。 

TriMedia VLIW CPU 

在 第 5 章 中 ， 我 们 研究 了 VLIW CPU 的 一 个 例子 : Itanium-2。 现 在 ， 让 我 们 来 看 看 一 个 
完全 不 同 的 VLIW 处 理 器 : 由 飞利浦 公司 设计 的 TriMedia。 飞 利 浦 是 一 家 荷兰 的 电子 公司 ， 
除了 TriMedia， 它 还 发 明了 音频 CD 和 CD-ROM。TriMedia 4/J# (ERA ALBERS, GA 
图 像 、 音 频 和 视频 密集 型 应 用 ， 例 如 CD、DVD 和 MP3 播放 器 、CD 和 DVD 记录 器 、 交 互 
式 电视 机 、 数 码 相 机 、 便 携 式 摄像 机 等 。 知 道 了 TriMedia 的 这 些 应 用 领域 ， 我 们 就 不 奇怪 为 
HA EA Itanium-2 的 差别 很 大 ， 因 为 Itanium-2 的 主要 用 途 是 作为 高 端 服务 器 的 CPU. 

TriMedia 是 一 个 真正 的 VLIW 处 理 器 ， 每 条 指令 包含 5 个 操作 ( operation )。 在 最 理想 的 
情况 下 ， 每 个 时 钟 周期 启动 一 条 指令 ， 发射 5 个 操作 。 时 钟 运行 频率 为 266MHz 或 者 
300MHz， 但 由 于 它 在 一 个 周期 中 能 够 发 射 5 个 操作 ， 因 此 ， 有 效 的 时 钟 速度 是 上 述 值 的 5 
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倍 。 在 下 面 的 讨论 中 ， 我 们 将 焦点 集中 在 TriMedia 的 TM3260 实现 上 ; 其 他 版 本 的 实现 和 它 
只 有 细微 的 差别 。 T #2 槽 3 ia 槽 5 的 操作 

一 条 典型 的 指令 如 图 8-3 所 示 。 这 \ \ \ Ny AU neta 
些 指 令 变 化 多 样 ， 可 以 是 标准 的 8 位、 
16 位 和 32 位 整数 指令 ， 也 可 以 是 IEEE Ta PET pep a 
754 浮 点 指令 ， 甚 至 是 并 行 多 媒体 指令 。 int 
因为 每 个 时 钟 周期 可 以 进行 5 次 发 射 而 图 8-3 典型 TriMedia 指令 ， 给 出 5 种 可 能 操作 
且 具 有 并 行 多 媒体 指令 ， 所 以 对 于 用 软件 从 一 个 便携 式 摄 像 机 中 全 尺寸 、 全 帧 速率 解码 DV 
流 来 说 ，TriMedia 是 足够 快 的 。 

TriMedia 的 内 存 是 面向 字 节 的 ， 输 入 输出 寄存 器 映射 到 内 存 空间 。 半 字 ( 16 位) MEF 
(32 位 ) 要 按照 它们 的 自然 边界 对 齐 。 内 存 可 以 按照 大 端 派 运行 也 可 以 按照 小 端 派 运行 ， 这 
取决 于 操作 系统 能 够 进行 设置 的 PSW 位 。 这 一 位 仅 影响 内 存 和 寄存 器 间 加 载 和 存储 操作 数 的 
方式 。CPU 包含 分 离 的 8 路 组 相 联 高 速 缓存 ， 指 令 cache 和 数据 cache 的 cache 块 大 小 都 是 
64 个 字 节 。 指 令 cache 容量 是 64KB ， 数 据 cache 容量 是 16KB。 

TriMedia 有 128 个 32 位 的 通用 寄存 器 。 寄 存 器 RO 规定 恒 为 0， 寄 存 器 RI 规定 恒 为 1。 
试图 改变 它们 中 的 任何 一 个 都 会 给 CPU 造成 致命 的 打击 。 剩 余 的 126 个 寄存 器 功能 完全 相同 ， 
可 以 用 于 任何 用 途 。 另 外 ,还 有 4 个 32 位 的 专用 寄存 器 ， 它 们 是 程序 计数 器 、 程 序 状 态 字 以 
及 两 个 与 中 断 有 关 的 寄存 器 。 最 后 ， 还 有 一 个 64 位 寄存 器 对 CPU 最 后 一 次 复位 后 的 CPU 周 
期 数 进行 计数 。 以 300MHz 的 频率 运行 ， 计 数 器 要 花 将 近 2000 年 才能 循环 一 圈 从 头 开始 。 

为 了 执行 算术 、 催 辑 和 控制 流 操作 (还 有 一 个 是 cache 控制 , 这 里 不 进行 讨论 )， 
TriMedia TM3260 有 11 个 不 同 的 功能 单元 。 它 们 的 列表 如 图 8-4 所 示 。 前 两 列 是 功能 单元 的 
名 称 及 其 功能 的 简要 说 明 。 第 三 列 给 出 这 个 功能 单元 的 硬件 拷贝 数量 。 第 四 列 给 出 了 延迟 时 
间 ， 就 是 完成 任务 所 需 的 时 钟 周 期 。 就 延迟 时 间 而 言 ， 因 为 除了 浮 点 数 开 方 /除法 单元 外 所 
有 的 功能 单元 都 是 能 够 顺利 流水 的 ， 所 以 延迟 时 间 长 短 也 没 太 大 意义 。 表 格 中 的 延迟 时 间 给 
出 了 得 到 一 个 操作 的 结果 所 需 的 时 间 长 度 ， 几 乎 可 以 在 每 一 个 时 钟 周 期 内 发 起 一 个 新 的 操作 。 
因而 ， 举 个 例子 ， 如 果 3 条 连续 指令 中 的 每 一 条 可 以 包含 2 个 加 载 操作 ， 那么 同一 时 刻 不 同 
执行 阶段 总 共 可 以 有 6 个 加 载 操作 。 
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图 8-4 TM3260 功能 单元 的 数量 、 等 待 时 间 以 及 它们 能 够 使 用 的 指令 槽 
最 后 ， 末 尾 的 五 列 指明 每 个 功能 单元 使 用 哪些 指令 槽 。 例 如 ， 浮 点 数 比 较 操作 必须 且 只 
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能 出 现在 一 条 指令 的 第 三 个 槽 中 。 

常数 单元 用 于 立即 数 操作 ， 例 如 将 一 个 直接 保存 在 操作 中 的 数 加 载 到 寄存 器 中 。 整 数 
ALU 执行 加 法 、 减 法 、 布 尔 操作 以 及 打包 / 拆 包 操作 。 移 位 器 能 够 将 寄存 器 向 任意 一 个 方向 

加 载 /存储 单元 取 内 存 字 到 寄存 器 中 ， 并 将 它们 写 回 。TriMedia 在 本 质 上 是 一 个 功能 增 
IRAY RISC CPU， 所 以 一 般 的 操作 在 寄存 器 执行 ， 而 加 载 / 存储 单元 用 于 访问 内 存 。 数 据 传 送 
可 以 按照 8、16 或 者 32 位 进行 。 算 数 和 逻辑 指令 不 进行 内 存 访问 。 

乘法 单元 处 理 整数 和 浮 点 数 乘法 。 接 下 来 的 3 个 单元 分 别处 理 浮 点 数 加 法 /减法 、 比 较 
以 及 开 方 和 除法 。 

分 支 操作 由 分 支 单 元 执行 。 在 一 个 分 支 后 有 固定 的 3 个 周期 的 延迟 ， 所 以 ， 一 个 分 支 操 
作 之 后 总 有 3 条 指令 (最 多 可 达 15 个 操作 ) 紧 接着 被 执行 ， 即 使 是 非 条 件 分 支 也 如 此 。 

最 后 ， 我 们 介绍 两 个 多 媒体 单元 ， 多 媒体 单元 用 于 处 理 特殊 的 多 媒体 操作 。 功 能 单元 
名 字 中 的 DSP 是 数字 信号 处 理 器 Digital Signal Processor) 的 缩写 ， 它 可 以 有 效 地 替代 多 
媒体 操作 。 我 们 将 在 下 面 简要 地 描述 多 媒体 操作 。 一 个 值得 关注 的 特点 是 它们 都 用 饱和 运算 
( saturated arithmetic ) 来 代替 整数 操作 所 使 用 的 补 码 运算 ， 一 个 操作 产生 的 结果 溢出 时 补 码 运 
算 无 法 表示 ， 只 能 产生 一 个 例外 ， 或 者 给 出 一 个 无 用 的 结果 ， 而 饱和 运算 则 使 用 最 接近 的 有 
效 数 字 。 以 8 位 无 符号 数 为 例 , 将 130 加 上 130, 给 出 的 结果 是 255。 

由 于 并 非 每 一 个 操作 都 将 出 现在 每 一 个 槽 中， 经 常 出 现 的 情况 是 一 条 指令 并 不 包含 所 有 
5 个 潜在 的 操作 。 当 槽 没有 被 使 用 时 ， 它 会 被 压缩 ， 从 而 使 得 空间 浪费 的 总 量 最 少 。 使 用 的 
操作 占用 26、34 或 42 位。TriMedia 指令 的 长 度 取决 于 实际 出 现 的 操作 个 数 ， 从 2 ~ 28 字 节 
不 等 ， 这 其 中 包括 一 些 固定 的 开销 。 

TriMedia 不 做 运行 时 检测 来 查看 一 条 指令 中 的 操作 是 否 相 容 。 如 果 它 们 不 相 容 ， 则 仍然 
会 被 执行 ， 并 得 到 一 个 错误 的 结果 。 故 意 省 去 检查 的 目的 是 为 了 节约 时 间 和 晶体 管 。Core i7 
进行 运行 时 检测 ， 以 保证 所 有 的 超标 量 操作 都 相 容 ， 但 是 却 在 复杂 性 、 时 间 和 品 体 管 方面 付 
出 了 巨大 的 代价 。 为 了 避免 这 个 开销 ，TriMedia 将 调度 的 重担 交 给 编译 器 ， 编 译 器 有 足够 的 
时 间 仔 细 地 优化 指令 字 中 的 操作 设置 。 另 一 方面 ， 如 果 操 作 需 要 的 功能 单元 不 可 用 ， 那么 这 
条 指令 将 被 暂停 直到 该 功能 单元 可 用 。 

和 在 Itanium-2 中 一 样 ，TriMedia 的 操作 是 经 过 预测 的 。 每 一 个 操作 (有 2 个 小 例外 ) 指 
定 一 个 寄存 器 ， 在 操作 执行 之 前 ， 将 测试 这 个 寄存 器 。 如 果 寄 存 器 的 最 低位 被 置 位 ， 则 执行 
操作 ; 否则 操作 就 被 跳 过 。5 个 操作 ( 最多) 中 的 每 一 个 都 是 独立 预测 的 。 预 测 操作 的 一 个 
例子 是 : 

IF R2 IADD R4, R5 一 > R8 

它 测试 R2， 如 果 最 低位 是 1， 则 将 R4 加 上 R5， 并 将 结果 储存 到 R8。 可 以 通过 使 用 RI1 
(永远 是 1 ) 作为 预测 寄存 器 来 让 操作 无 条 件 执行 。 通 过 使 用 R0 (永远 是 0 ) 来 让 它 成 为 空 
操作 。 

TriMedia 多 媒体 操作 可 以 被 分 成 15 组 ， 如 图 8-5 所 示 。 许 多 操作 包含 截断 ， 它 指定 一 个 
操作 数 和 一 个 范围 ， 并 强制 操作 数 在 指定 的 范围 内 ， 使 落 在 范围 外 面 的 操作 数 使 用 最 低 值 或 
最 高 值 。8 、16 或 32 位 操作 数 都 可 以 进行 截断 操作 。 例 如 ， 将 范围 为 0 ~ 255 的 截断 操作 用 
于 40 和 340 时 ， 截 断 结果 分 别 为 40 和 255。 和 截断 组 执行 截断 操作 。 
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图 8-5 中 接 下 来 的 4 组 操作 对 不 同 大 小 的 操作 数 执行 指定 的 操作 ， 并 截断 结果 到 指定 的 


HELI SOREN I eS a aM 
每 个 字 节 找 出 最 小 或 最 大 值 。 相 似 地 ， 比 
较 组 将 两 个 寄存 器 视 为 4 对 字 节 ， 并 比较 
bom 
每 一 对 的 大 小 。 
对 32 位 整数 很 少 执 行 多 媒体 操作 ， | DSP 乘 法 | 截断 的 带 符 号 乘法 | 
. 
因为 大 部 分 图 像 由 RGB 像素 组 成 ， 红 、 Hie [MAren rinta | 
绿 和 蓝 每 种 颜色 分 别 用 8 位 数值 表示 。 当 
处 理 一 个 图 像 时 ( 例如， 压缩 ) 它 通常 
= 
由 三 个 部 分 描述 ， 每 一 部 分 对 应 一 种 颜 
色 (RGB 空间 ) 或 者 一 种 逻辑 等 价 形式 
COVEN. HEARANN RTE 
是 哪 一 种 方式 ， 大 部 分 处 理 都 是 在 由 8 位 
无 符号 整数 构成 的 矩形 阵列 上 完成 。 
TriMedia 有 大 量 的 操作 都 是 专门 设计 来 高 效 地 处 理 8 位 无 符号 整数 组 成 的 阵列 的 。 举 


图 8-5 TriMedia 主要 的 自 定 义 操 作 分 组 
一 个 简单 的 例子 ， 考 虑 由 储存 在 (大 端 派 ) 内 存 中 的 8 位 数值 所 组 成 的 阵列 的 左上 和 角 ， 如 
图 8-6a 所 示 。 左 上 角 显 示 的 4x4 的 块 包含 16 个 8 位 数值 ， 标 为 A ~ Po 假设 需 要 将 图 像 进 
行 转 置 ， 产 生 图 8-6b， 这 个 任务 怎样 完成 ? 


















R2 [AlBlclp| R2 [ale |1|M| 
R3 [e|F |G |u| R3 [B]e | 3 [N] 
R4 [1] 3] x]L] r4 [c]a|x]o| 
rs [M|N [0 [P | rs [p|H|t|P | 

a) 每 元 素 8 位 的 数组 b) 转 置 数组 o 最 初 取 到 4 个 寄存 器 中 的 数组 。 d) 4 个 寄存 器 中 的 转 置 数组 
图 8-6 


一 种 变换 的 方法 是 使 用 12 个 操作 ， 每 个 操作 加 载 一 个 字 节 到 一 个 不 同 的 寄存 器 中 ， 紧 接 
着 再 用 12 个 操作 ， 每 个 操作 将 一 个 字 节 存储 到 它 正确 的 位 置 上 。( 注意 : 对 角 线 上 的 4 个 字 
节 ， 在 变换 中 并 未 移动 位 置 ) 这 种 方法 的 问题 是 它 需要 24 (长 并 且慢 ) 个 访 存 操作 。 

一 个 可 供 选 择 的 方法 是 用 4 个 操作 开始 ， 每 个 操作 加 载 一 个 字 到 4 个 不 同 的 寄存 器 
R2 ~ R5 中 ， 如 图 8-6c 所 示 。 然 后 ，4 个 输出 字 通 过 屏蔽 和 移 位 操作 装配 成 想得到 的 输出 ， 
如 图 8-6d 所 示 。 最 后 ， 这 些 字 被 储存 在 内 存 中 。 虽 然 这 种 方法 将 访 存 次 数 从 24 次 减少 到 8 
次 ,但 是 由 于 许多 操作 需要 将 每 一 个 字 节 提取 并 插入 到 正确 的 位 置 ， 所 以 屏蔽 和 移 位 操作 的 
代价 很 大 。 

TriMedia 提供 了 一 种 比 上 述 两 种 都 要 好 的 解决 方案 。 它 先 取 4 个 字 到 寄存 器 中 。 然 而 ， 
它 不 是 使 用 屏蔽 和 移 位 建立 输出 ， 而 是 通过 使 用 在 寄存 器 中 的 提取 和 插入 字 节 的 特殊 操作 来 
建立 输出 。 结 果 是 只 需要 8 次 内 存 访问 和 8 个 这 些 多 媒体 操作 ， 这 个 转换 就 能 够 完成 。 相 应 
的 代码 首先 包含 一 个 在 第 4 和 5 横 执行 加 载 的 操作 ， 分 别 加 载 字 到 R2 和 R 中 ， 接 下 来 是 另 
一 个 这 样 的 操作 ， 加 载 字 到 R4 AIRS. 
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包含 这 些 操 作 的 指令 可 以 使 用 槽 1 和 2， 槽 3 有 其 他 用 图 。 当 所 有 这 些 字 都 被 加 载 ，8 个 
专用 的 多 媒体 操作 可 以 被 打包 成 2 条 指令 用 以 建立 输出 ， 接 下 来 再 用 2 个 操作 存储 它们 。 总 
而 言 之 ， 只 需要 6 条 指令 ， 这 些 指令 中 30 个 槽 中 的 14 个 还 可 用 于 其 他 操作 。 更 有 效 地 ， 整 
个 工作 可 以 通过 大 约 3 个 有 效 等 价 的 指令 完成 。 其 他 多 媒体 操作 也 同样 高 效 。 有 了 这 些 强 有 
力 的 操作 以 及 每 条 指令 5 PAY, TriMedia 能 够 高 效 地 进行 多 媒体 处 理 中 所 需 的 各 种 计算 。 


8.1.2 片 内 多 线程 


所 有 现代 指令 流水 的 CPU 都 存在 一 个 固有 的 问题 : 如 果 内 存 引 用 在 第 一 级 和 第 二 级 
cache 中 都 缺失 ， 会 导致 长 时 间 的 等 待 ， 直 到 需要 的 字 ( 和 它 关 联 的 cache t ) 被 加 载 到 
cache 中 ， 这 会 造成 流水 线 暂停 。 有 一 种 方法 可 以 应 对 这 种 情况 ， 称 作 片 内 多 线程 on-chip 
multithreading )， 就 是 允许 CPU 同时 管理 多 个 控制 线程 来 屏蔽 这 些 暂 停 。 简 而 言 之 ， 如 果 线 
程 1 被 阻塞 ，CPU 仍 有 机 会 执行 线程 >， 这 样 能 保证 硬件 被 充分 利用 。 

尽管 这 个 基本 思路 是 很 简单 的 ， 但 仍 有 很 多 不 同 的 变化 ， 下 面 我 们 就 来 分 析 一 下 。 第 一 
种 方式 ， 称 作 细 粒度 多 线程 ( fine-grained multithreading )， 在 图 8-7 中 以 一 个 能 每 时 钟 周期 发 
射 一 条 指令 的 CPU 为 例 进 行 说 明 。 在 图 8-7a ~ c 中 ,我 们 看 到 3 TRE, A, BAC, 使 用 
12 个 机 器 周期 的 情况 。 在 第 一 个 周期 内 ， 线 程 A 执行 指令 A1。 这 条 指令 在 一 个 周期 内 完成 ， 
所 以 在 第 二 个 周期 ， 开 始 执行 指令 A2。 不 幸 的 是 ， 这 条 指令 在 第 一 级 cache 中 缺失 ， 导 致 两 
个 周期 浪费 在 从 第 二 级 cache 获取 需要 的 字 的 过 程 中 。 线 程 在 第 5 个 周期 继续 。 类 似 地 ， 
中 的 线程 B 和 C 也 因为 偶然 因素 发 生 暂 停 。 在 这 个 模型 中 ， 如 果 一 条 指令 和 暂停， 它 后 面 的 指 
令 就 不 能 发 射 。 当 然 ， 如 果 采 用 更 高 级 的 记分 牌 算法 ， 有 时 新 指令 仍然 能 够 继续 发 射 ， 但 我 
们 这 里 的 讨论 忽略 这 些 可 能 的 情况 。 
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周期 一 ~ 周期 一 > 
图 8-7 a) ~ c)3 个 线程 ,空白 表示 线程 暂停 等 待 内 存 ; d ) 细 粒 度 多 线程 ; e ) 粗 粒度 多 线程 


如 图 8-7d 中 所 示 ， 细 粒度 多 线程 通过 循环 运行 线程 来 屏蔽 暂停 ， 在 连续 的 周期 内 使 用 不 
同 的 线程 执行 指令 。 在 第 4 个 周期 开始 的 时 候 ，A1 进行 的 内 存 操作 已 经 完成 ， 所 以 指令 A2 
可 以 执行 ， 就 算 它 需 要 Al 的 执行 结果 也 没有 问题 。 在 这 种 情况 下 最 长 的 暂停 是 两 个 周期 ， 
所 以 只 要 3 个 线程 暂停 的 操作 就 一 定 能 按时 完成 。 假 设 一 个 内 存 暂 停 需要 占用 4 个 周期 ， 我 
们 将 需要 4 个 线程 来 保证 连续 进行 操作 ， 依 此 类 推 。 

由 于 不 同 线程 之 间 互 不 影响 ， 所 以 每 个 线程 需要 有 自己 的 一 组 寄存 器 。 当 发 射 一 条 指令 
时 ， 必 须 附 带 一 个 指向 它 的 寄存 器 组 的 指针 ， 这 样 如 果 一 个 寄存 器 被 引用 ， 硬 件 就 可 以 知道 
用 到 了 哪个 寄存 器 组 。 因 此 ， 一 次 能 够 运行 的 线程 最 大 数目 在 芯片 设计 时 就 已 经 确定 。 

内 存 操作 不 是 暂停 的 唯一 原因 。 有 时 一 条 指令 需要 前 一 条 尚未 完成 的 指令 的 计算 结果 。 
有 时 指令 不 能 开始 是 因为 它 需 要 根据 前 面 的 条 件 分 支 来 确定 是 否 执行 ， 而 条 件 分 支 满足 与 否 
尚未 得 知 。 一 般 而 言 ， 如 果 流 水 线 有 大 级 ， 但 至 少 有 大 个 线程 循环 运行 ,那么 在 任意 时 刻 ， 
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流水 线 上 每 个 线程 至 多 执行 一 条 指令 ， 所 以 冲突 肯定 不 会 发 生 。 在 这 种 情况 下 ，CPU 能 全 速 
运行 而 不 出 现 暂 停 。 

当然 ， 实 际 可 能 没有 流水 线 级 数 那么 多 可 用 的 线程 ， 所 以 一 些 设计 者 更 喜欢 另 一 种 方法 ， 
也 就 是 粗 粒 度 多 线程 (coarse-grained multithreading )， 如 图 8-7e 所 示 。 线 程 A 启动 并 发 射 指 
令 直 到 发 生 暂 停 ， 浪费 掉 一 个 周期 。 这 时 产生 一 个 切换 ,并且 执行 B1。 由 于 线程 B 的 第 一 条 
指令 发 生 暂停 ， 又 产生 另 一 个 切换 ， 并 且 在 第 6 个 周期 执行 C1。 由 于 每 次 指令 暂停 都 浪费 掉 
一 个 周期 ， 所 以 粗 粒 度 多 线程 潜在 地 比 细 粒 度 多 线程 效率 低 一 些 ， 但 它 最 大 的 优势 在 于 只 需 
要 较 少 的 线程 就 可 以 保证 CPU 一 直 处 于 工作 状态 。 那 么 在 没有 足够 多 可 用 线程 ， 而 且 没 有 更 
好 的 方法 之 前 ， 粗 粒度 多 线程 能 更 好 地 工作 。 

尽管 我 们 描述 了 粗 粒 度 多 线程 在 发 生 和 暂停 时 采用 线程 切换 的 手段 ,但 这 并 不 是 唯一 的 选 
择 。 另 一 种 可 能 的 方法 是 ， 当 遇 到 可 能 会 导致 暂停 的 指令 ， 例 如 load, store 或 者 branch 指令 
时 ， 在 确定 它 是 否 真 地 会 导致 暂停 之 前 ， 就 立即 进行 切换 。 后 面 说 的 这 种 策略 允许 更 早 进 行 
切换 (指令 译 码 之 后 就 可 以 进行 )， 并 且 可 能 避免 周期 浪费 。 概 括 地 说 就 是 “在 运行 到 可 能 出 
现 问题 的 时 候 ， 立 刻 进行 切换 ， 以 防 万 一 。” 通过 频繁 的 切换 ， 这 种 粗 粒度 多 线程 很 大 程度 上 
更 像 细 粒度 多 线程 。 

不 管用 的 是 哪 种 多 线程 策略 ， 都 需要 一 种 方法 来 跟踪 哪个 操作 属于 哪个 线程 。 对 于 细 粒 
度 多 线程 来 说 ， 很 重要 的 一 点 是 每 一 个 操作 都 要 加 上 一 个 线程 标识 ， 以 便于 当 操 作 在 流水 线 
上 执行 的 时 候 ， 它 的 标识 是 明确 的 ; 对 于 粗 粒 度 多 线程 来 说 ， 则 存在 男 一 种 可 能 : 当 切 换 线 
程 时 排 空 流水 线 ， 然 后 才 启 动 下 一 个 线程 。 这 样 一 来 ， 同 一 时 刻 在 流水 线 上 只 存在 一 个 线程 ， 
线程 标识 就 很 清楚 。 当 然 ， 只 有 线程 切换 花费 的 时 间 远 大 于 排 空 流水 线 花费 的 时 间 时 ， 在 线 
程 切换 时 排 空 流水 线 才 有 意义 。 

前 面 我 们 一 直 假 设 CPU 每 周期 只 能 发 射 一 条 指令 。 而 事实 上 ， 现 代 的 CPU 每 周期 能 发 
射 多 条 指令 。 在 图 8-8 中 ,我 们 假设 CPU 每 周期 能 发 射 两 条 指令 ， 但 我 们 还 保留 这 个 规则 ， 
就 是 当 一 条 指令 暂停 时 ， 后续 的 指令 不 能 被 发 射 。 在 图 8-8a 中 ,我 们 能 够 看 到 细 粒 度 多 线程 
在 双 发 射 超标 量 CPU 中 是 如 何 工作 的 。 对 线程 A， 前 两 条 指令 可 以 在 第 一 个 周期 内 发 射 , 但 
对 于 线程 B， 在 下 一 个 周期 就 遭遇 问题 ， 所 以 只 有 一 条 指令 能 发 射 ， 依 此 类 推 。 
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周期 一 一 ~ 周期 一 ~ 
a) 细 粒 度 多 线程 b) 粗 粒度 多 线程 
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周期 一 > 
c) 并 发 多 线程 


图 8-8 双 发 射 超标 量 CPU 上 的 多 线程 


在 图 8-8b 中 ， 我 们 看 看 粗 粒度 多 线程 是 如 何在 双 发 射 CPU 中 工作 ， 只 是 这 里 有 一 个 静 
态 调 度 器 ， 可 以 在 指令 暂停 时 ， 避 免 周 期 浪费 。 基 本 上 这 些 线程 按 顺 序 运 行 ，CPU 每 个 线程 
发 射 两 条 指令 ， 直 到 出 现 暂停 。 然 后 ， 在 下 一 个 周期 开始 的 时 刻 ， 它 会 切换 到 下 一 个 线程 。 

对 于 超标 量 CPU， 还 有 第 三 种 可 以 采用 的 方法 ， 称 作 并 发 多 线程 (simulataneous 
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multithreading )， 如 图 8-8c 所 示 。 这 种 方法 可 以 看 作 是 对 粗 粒 度 多 线程 的 改进 。 具 体 思路 是 ， 
允许 一 个 单独 的 线程 每 周期 发 射 两 条 指令 ， 但 出 现 暂停 时 指令 立刻 按 顺 序 从 下 一 个 线程 取信， 
以 保证 CPU 被 完全 占用 。 并 发 多 线程 能 保证 所 有 的 功能 单元 都 处 于 工作 状态 。 当 一 条 指令 因 
为 一 个 需要 的 功能 单元 被 占用 而 不 能 执行 的 时 候 ， 会 被 来 自 另 一 个 线程 的 指令 代替 。 在 图 8-8 
中 ， 我 们 假设 B8 在 第 11 周期 发 生 暂停 ， 所 以 C7 在 第 12 周期 开始 执行 。 

如 果 想 了 解 更 多 的 关于 多 线程 的 知识 ， 请 参考 Gebhart (2011) 和 Wing-kei 等 人 (2011 ) 
的 相关 工作 。 

Core i7 里 的 超 线程 技术 

在 理论 上 分 析 了 多 线程 之 后 ， 我 们 现在 要 分 析 一 个 实际 的 多 线程 例子 : Core i7。 在 2000 
年 初 ，Intel 为 了 维持 销售 量 导 致 Pentium 4 等 处 理 器 没有 侧重 于 性 能 提升 。Pentium 4 投放 市 
场 之 后 ，Intel 的 设计 师 们 想方设法 来 提高 它 的 速度 ， 但 前 提 是 不 影响 编程 人 员 使 用 的 接口 ， 
并 且 不 会 引入 用 户 难 以 接受 的 东西 。 他 们 很 快 提 出 了 5 种 方法 : 

1 ) 提高 时 钟 速 度 。 

2 ) 在 一 个 芯片 上 放置 2 个 CPU。 

3 ) 增加 功能 单元 。 

4) 加 长 流水 线 。 

5) 使 用 多 线程 技术 。 

一 个 显而易见 的 改进 性 能 的 方法 就 是 加 快 时 钟 的 速度 ， 而 不 做 其 他 任何 改动 。 这 样 做 既 
直接 也 易于 理解 ， 所 以 后 来 出 产 的 新 芯片 都 比 前 面 的 产品 快 一 些 。 不 幸 的 是 ， 更 快 的 时 钟 也 
带 来 了 两 个 主要 问题 ， 这 限制 了 多 大 的 提速 能 被 接受 。 第 一 ， 更 快 的 时 钟 需要 更 多 的 能 量 ， 
对 笔记 本 电脑 和 其 他 使 用 电池 供电 的 设备 来 说 ， 这 可 是 一 个 很 大 的 问题 。 第 二 ， 额 外 的 能 量 
输入 ， 意 味 着 芯片 会 变 得 更 热 ， 这 对 散热 系统 又 提出 了 更 高 要 求 。 

在 一 个 芯片 上 放置 2 个 CPU 也 是 很 直接 的 办 法 。 但 是 ， 如 果 每 个 CPU 有 自己 的 cache 
的 话 ， 芯 片面 积 就 要 加 倍 ， 这 样 做 的 后 果 就 是 每 个 晶片 上 的 芯片 数量 要 减少 一 半 ， 实 质 上 也 
就 导致 单位 制造 成 本 加 倍 。 如 果 这 两 个 芯片 共用 一 个 与 原先 一 样 大 小 的 cache， 那 么 芯片 面 
积 没 有 翻 倍 ， 但 每 个 芯片 所 能 用 的 cache 空间 减 半 ， 人 性 能 自然 也 大 大 降低 。 此 外 ， 高 端 服务 
器 的 程序 经 常 能 充分 利用 多 个 CPU， 但 并 非 所 有 的 桌面 程序 都 支持 并 行 算 法 来 充分 利用 两 个 
CPU。 

增加 功能 单元 也 相当 简单 ， 但 是 如 何 取 得 均衡 是 很 重要 的 。 如 果 芯 片 不 能 足够 快 地 为 流 
水 线 填充 指令 ， 那 么 即使 有 10 个 ALU 也 不 能 很 好 地 工作 。 

更 多 级 的 较 长 流水 线 ， 每 一 级 分 担 更 少 的 工作 ， 可 以 在 更 短 的 周期 内 完成 ， 这 也 能 提高 
性 能 。 但 是 也 会 因为 分 支 预测 出 错 、cache 命中 率 降 低 、 中断 和 其 他 干扰 流水 线 正常 工作 的 因 
素 增 加 负面 影响 。 而 且 ， 为 了 发 挥 更 多 级 流水 线 的 优点 ， 时 钟 速度 也 要 跟着 提高 ， 意 味 着 会 
消耗 更 多 的 能 量 并 产生 更 多 的 热量 。 

最 后 ， 可 以 考虑 加 入 多 线程 。 它 的 价值 在 于 引进 另 一 个 线程 来 使 用 硬件 ， 从 而 避免 了 
硬件 闲置 。 经 过 很 多 实验 证 明 ， 在 芯片 上 增加 5% 的 面积 来 支持 多 线程 ， 在 很 多 应 用 中 能 使 
性 能 提高 25%， 这 说 明 多 线程 是 个 不 错 的 选择 。Intel 的 第 一 个 多 线程 CPU 是 2002 年 推出 
的 Xeon, 但 多 线程 技术 不 久 就 加 到 Pentium 4 Œ, JM Pentium 4 的 3.06GHz 版 本 开始 ， 包 括 
Core i7 在 内 后 续 速度 更 快 的 Pentium 处 理 器 ， 都 加 入 了 多 线程 技术 。Intel 称 这 些 处 理 器 中 实 
现 的 多 线程 为 超 线程 (hyperthreading )。 
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超 线程 的 基本 思想 是 ， 人 允许 两 个 线程 〈 或 者 说 是 进程 ， 因 为 CPU 区 分 不 出 什么 是 线程 ， 
什么 是 进程 ) 同时 运行 。 对 操作 系统 来 说 ， 支 持 超 线程 的 Core i7 芯片 看 起 来 像 一 个 双 处 理 
器 ， 两 个 CPU 共用 一 个 cache 和 主 存 。 操 作 系 统 独 立地 调度 这 些 线程 。 如 果 两 个 应 用 程序 
同时 运行 ， 那么 操作 系统 能 同时 运行 每 一 个 程序 。 例 如 ， 如 果 一 个 邮件 后 台 程 序 在 后 人 台 收 发 
E-mail， 而 用 户 正 在 前 台 与 某 个 程序 进行 交互 ， 那 么 后 台 程 序 与 用 户 程 序 可 以 并 发 执行 ， 看 
起 来 像 在 使 用 两 个 CPU。 

设计 成 多 线程 运行 的 应 用 软件 ， 可 以 使 用 这 两 个 虚拟 的 CPU。 例如， 视频 编辑 程序 通常 
允许 用 户 为 某 个 范围 的 帧 指定 特定 的 过 滤器 。 这 些 过 滤器 可 以 修改 每 个 帧 的 亮度 、 对 比 度 、 
色彩 平衡 或 者 其 他 属性 。 这 个 程序 就 可 以 分 配 一 个 CPU 来 处 理 偶 数 帧 ， 而 另 一 个 CPU 来 处 
理 奇数 帧 。 这 两 个 CPU 就 可 以 完全 独立 地 执行 各 自 的 命令 。 

由 于 这 两 个 线程 共用 所 有 的 硬件 资源 ， 所 以 必须 提出 一 个 策略 来 管理 共享 。 为 了 处 理 与 
超 线程 技术 相关 的 资源 共享 问题 ，Intel 确定 了 4 种 有 效 的 策略 : 资源 复制 、 资 源 划分 、 阔 值 
共享 和 完全 共享 。 下 面 逐 个 进行 讨论 。 

首先 ， 为 了 实现 多 线程 ， 一 些 资源 会 被 复制 。 例 如 ， 由 于 每 个 线程 有 自己 的 控制 流 ， 就 
必须 另 加 一 个 程序 计数 器 。 另 外 ， 从 体系 结构 寄存 器 (EAX，EBX 等 ) 到 物理 寄存 器 的 映射 
表 也 要 复制 。 还 要 复制 中 断 控制 器 ， 以 保证 线程 能 独立 地 被 中 断 而 互 不 影响 。 

接着 就 是 进行 分 区 资源 共享 partitioned resource sharing )， 就 是 把 硬件 资源 在 线程 之 间 
严格 划分 。 例 如 ， 如 果 CPU 有 一 个 队列 处 在 两 个 功能 流水 段 之 间 ， 那 么 一 半 的 时 间 片 会 被 分 
配给 线程 1， 而 另 一 半 给 线程 2。 划 分 可 以 很 简单 地 实现 ， 没 有 额外 开销 ， 并 保证 线程 间 互 不 
影响 。 如 果 所 有 的 资源 都 划分 好 ， 我 们 就 可 以 拥有 两 个 单独 的 CPU 了 。 它 的 弊端 是 ， 很 可 能 
在 某 些 时 刻 ， 一 个 线程 并 不 使 用 它 的 硬件 资源 ， 而 同时 ， 另 一 个 线程 需要 使 用 ， 却 被 禁止 访 
问 这 些 资源 。 结 果 就 是 本 该 被 使 用 的 资源 反而 闲置 了 。 

与 分 区 资源 共享 相反 的 是 完全 资源 共享 ( fll resource sharing )。 在 这 种 方案 中 ， 按 照 先 
到 先 服务 的 原则 ， 每 个 线程 可 以 获得 它 需 要 的 任何 资源 。 然 而 ， 假 设 有 一 个 由 加 减 运算 组 成 
的 快 线程 ， 和 一 个 由 乘除 运算 组 成 的 慢 线 程 。 如 果 从 内 存 取 指 令 的 速度 快 于 乘除 运算 的 计算 
速度 ,那么 会 有 越 来 越 多 的 为 慢 线 程 取得 的 后 备 指 令 积 压 在 指令 队列 里 。 

最 终 ， 这 些 慢 线程 的 后 备 指 令 会 占据 整个 指令 队列 ， 从 而 导致 快 线程 因 缺 少 指令 队列 的 
空间 而 阻塞 。 完 全 资源 共享 解决 了 前 面 分 区 资源 共享 带 来 的 问题 ( 一 个 线程 分 配 的 资源 闲置 ， 
而 同时 另 一 个 线程 却 需要 使 用 这 些 资源 )， 但 是 引进 了 一 个 新 问题 ， 就 是 一 个 线程 可 能 会 占用 
大 量 资 源 ， 从 而 导致 另 一 个 线程 减 慢 ， 甚 至 完全 停止 。 566 

折 中 的 方案 是 阐 值 共享 ( threshold sharing )， 在 这 里 线程 能 动态 (没有 固定 的 划分 ) 获取 
资源 ， 只 是 要 低 于 某 个 阔 值 。 对 于 那些 复制 的 资源 ， 这 种 方法 比较 灵活 ， 避 免 了 线程 由 于 不 
能 访问 这 些 资源 而 造成 阻塞 的 危险 。 例 如 ， 如 果 所 有 线程 都 只 能 使 用 不 超过 3/4 的 指令 队列 ， 
那么 不 管 慢 线程 怎样 ， 快 线程 都 能 运行 。 为 了 解决 上 面 提 到 的 各 种 各 样 的 问题 ，Core i7 的 超 
线程 技术 对 不 同 资源 使 用 了 不 同 的 共享 策略 。 那 些 每 个 线程 自始至终 都 要 用 到 的 资源 都 会 被 
复制 ， 例 如 程序 计数 器 、 寄 存 器 映射 和 中 断 控制 器 。 复 制 这 些 资源 ， 使 芯片 面积 增加 了 5%, 
对 于 多 线程 这 是 一 个 可 以 接受 的 代价 。 有 一 些 资源 足够 丰富 ， 例 如 cache 块 ， 不 存在 一 个 线 
程 独占 所 有 资源 的 危险 ， 这 样 的 资源 通过 一 种 动态 的 方式 完全 共享 。 另 一 方面 ， 那 些 控制 流 
水 线 动作 的 资源 ， 例 如 流水 线 上 各 种 各 样 的 队列 ， 被 划分 使 用 ， 给 每 个 线程 一 半 的 时 间 片 。 
Core i7 中 使 用 的 Sandy Bridge 微 体 系 结构 的 主流 水 线 如 图 8-9 所 示 ， 白 色 和 灰色 的 方块 表示 
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这 些 资源 在 白色 和 灰色 线程 之 间 是 如 何 进行 分 配 的 。 


i 
i 


跟踪 取 指 分 配 / 重 排序 WER ”寄存 器 ”执行 数据 寄存 器 ”退出 
cache 队列 mare ”缓冲 区 cache 写 入 队列 


图 8-9 Core i7 微 体系 结构 中 多 线程 资源 共享 


在 图 8-9 中 我 们 可 以 看 到 ， 所 有 的 队列 都 被 划分 成 两 部 分 ， 为 每 个 线程 保留 一 半 的 时 间 
片 。 在 这 种 方式 下 ， 每 个 线程 都 不 能 阻塞 另 一 个 线程 。 寄 存 器 的 分 配器 和 重 命名 器 也 都 划分 
开 。 调 度 器 是 动态 共享 的 ， 但 有 一 个 靖 值 ， 以 防止 一 个 线程 提出 占用 所 有 的 时 间 片 的 要 求 。 
剩 下 的 流水 段 都 是 完全 共享 的 。 

然而 ， 并 非 使 用 了 多 线程 技术 就 万 事 大 吉 了 ， 还 是 有 不 利 的 一 面 。 虽然 使 用 划分 是 很 便 
宜 的 ， 但 动态 共享 任意 资源 ， 特 别 是 限制 一 个 线程 能 用 多 少 资源 ， 需 要 在 运行 时 随时 记录 ， 
以 监控 使 用 状况 。 此 外 ， 还 会 出 现 使 用 多 线程 反而 比 不 使 用 多 线程 效率 更 糟 的 情况 。 例 如 ， 
假设 有 两 个 线程 ， 每 个 需要 3/4 的 cache 来 正常 运行 。 如 果 单 独 运 行 ， 每 个 线程 都 能 工作 得 很 
好 ， 并 且 很 少 出 现 cache 缺失 。 如 果 一 起 运行 ， 每 个 线程 都 有 大 量 的 cache 缺失 ， 并 且 综 合 结 
果 可 能 会 远 远 差 于 不 用 多 线程 的 情况 。 

更 多 关于 Intel 处 理 器 中 多 线程 的 设计 与 实现 的 信息 ， 请 参考 Gerber 和 Binstock ( 2004 ) 
以 及 Gepner 等 人 (2011 ) 的 相关 工作 。 


8.1.3 单 片 多 处 理 器 


虽然 付出 适当 的 代价 多 线程 技术 就 能 使 性 能 显著 提高 ， 但 一 些 应 用 却 需 要 更 大 幅度 地 性 
能 提高 ， 这 就 不 是 多 线程 所 能 提供 的 了 。 为 了 满足 更 高 的 性 能 要 求 ， 人 们 开发 了 多 处 理 器 芯 
片 。 在 高 端 服 务 器 和 消费 电子 领域 ， 提 出 了 对 这 种 包含 两 个 甚至 更 多 CPU 的 多 处 理 器 芯片 的 
要 求 。 下 面 会 对 这 两 个 领域 进行 讨论 。 

1. 单 片 同 构 多 处 理 器 

随 着 VLSI 技术 的 发 展 ， 现 在 已 经 能 够 将 两 个 或 更 多 个 强大 的 CPU 集成 到 一 个 芯片 上 。 
由 于 这 些 CPU 总 是 共享 相同 的 第 二 级 cache 和 主 存 ， 所 以 它们 组 成 了 一 个 多 处 理 器 ， 这 些 
在 第 2 章 中 已 经 讨论 过 。 一 个 典型 的 应 用 领域 是 一 个 由 许多 服务 器 组 成 的 巨大 的 Web 服务 
器 。 通 过 把 两 个 CPU 放 到 同一 个 盒子 里 ， 共 享 内 存 、 硬 盘 和 网 络 接口 ， 服 务 器 的 性 能 常常 
能 翻 倍 ， 而 开销 却 不 会 翻 倍 ( 因为 即使 是 两 倍 的 价钱 ，CPU 芯片 的 花 销 也 只 占 整 个 系统 的 
一 小 部 分 )。 

在 小 规模 的 单 片 多 处 理 器 方面 ， 有 两 种 流行 的 设计 。 第 一 种 设计 如 图 8-10a fas, R 
有 一 个 芯片 ， 但 是 却 有 另外 一 条 流水 线 ， 这 样 一 来 ， 指 令 执 行 速率 有 望 翻 倍 。 第 二 种 设 
计 如 图 8-10b 所 示 ， 在 芯片 上 有 单独 的 内 核 ， 每 一 个 内 核 包 含 一 个 完整 的 CPU。 所 谓 内 核 
( core )， 是 指 一 个 大 规模 电路 ， 例 如 CPU, VO 控制 器 或 者 cache， 它 们 通过 一 种 模块 化 的 方 
式 集成 在 芯片 上 ， 通 常 与 其 他 内 核 相 邻 。 
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a) 双流 水 线 芯片 BETS 
图 8-10 单 芯片 多 处 理 器 


第 一 种 设计 人 允许 资源 ( 例如 功能 单元 等 ) 在 处 理 器 之 间 共 享 ， 因 此 允许 一 个 CPU 使 用 另 [568] 
一 个 CPU 不 用 的 资源 。 另 一 方面 ， 这 种 方法 需要 重新 设计 芯片 ， 而 且 不 容易 扩展 到 两 个 以 上 
的 CPU。 相 对 而 言 ， 在 同一 个 芯片 上 放置 两 个 或 者 更 多 的 CPU 内 核 ， 就 简单 一 些 。 

我 们 在 本 章 的 后 面 会 讨论 多 处 理 器 。 那 些 讨论 主要 集中 于 使 用 单 CPU 芯片 的 多 处 理 器 ， 
同时 ， 很 多 方面 也 适用 于 多 CPU 芯片 。 

2. Core i7 单 片 多 处 理 器 

Core i7 CPU 是 一 个 单 片 多 处 理 器 ， 它 将 4 
个 或 者 更 多 的 内 核 做 到 一 个 硅 片 里 。Core i7 处 
理 器 的 高 层 组 织 结构 如 图 8-11 所 示 。 

Core i7 中 的 每 个 处 理 器 都 有 自己 的 私有 aa 
L1 指令 和 数据 cache, Shin Á GAA R L2 统一 
cache。 处 理 器 和 私有 cache 之 间 使 用 专用 的 点 
对 点 连接 。 层 次 存储 的 下 一 层 是 共享 和 统一 有 的。 arg Cone 17 的 单 片 多 处 理 颖 体系 结构 
L3 数据 cache。 

L2 cache 和 L3 cache 使 用 环形 网 络 进行 连接 。 当 一 个 通信 请 求 进入 环形 网 络 ， 它 就 会 被 
向 前 传送 到 网 络 中 的 下 一 个 节点 ， 这 个 节点 需要 检查 通信 是 否 已 经 到 达 了 目的 节点 。 这 个 传 
递 过 程 在 环形 网 络 的 节点 之 间 连 续 进 行 ， 直 到 找到 了 目的 节点 或 者 通信 请 求 再 次 返回 源 节点 
(这 种 情况 表示 目的 节点 不 存在 )。 环 形 网 络 的 优点 是 它 使 用 一 种 比较 经 济 的 方法 获得 高 带宽 ， 
增加 的 延迟 取决 于 通信 请 求 在 节点 之 间 的 跳 数 。Core i7 环形 网 络 用 于 实现 两 个 主要 的 目标 ， 
第 一 个 是 提供 一 种 传送 处 理 器 与 cache 之 间 的 内 存 和 IO 请 求 的 方法 ， 第 二 个 是 它 实现 了 必要 
的 检查 从 而 确保 处 理 器 总 是 能 看 到 一 个 一 致 的 内 存 视图 。 我 们 在 这 一 章 的 后 面部 分 会 学 习 更 
多 有 关内 存 一 致 性 检查 的 内 容 。 569 

3. 单 片 异 构 多 处 理 器 

散人 入 式 系统 是 需要 使 用 单 片 多 处 理 器 的 一 个 完全 不 同 的 应 用 领域 ， 尤 其 是 在 音像 消费 电 
子 方面 ， 例 如 电视 机 、DVD 播放 器 、 便 携 式 摄像 机 、 游 戏 控制 台 、 手 机 等 。 这 些 系 统 对 性 能 
有 很 高 的 要 求 并 受到 严格 制约 。 尽 管 这 些 设备 看 起 来 差别 很 大 ,但 实际 上 其 中 大 部 分 产品 就 
是 简单 的 小 计算 机 ， 有 一 个 或 多 个 CPU、 内 存 、L/O 控制 器 和 一 些 定制 的 10 设备 。 例 如 一 部 
手机 ， 实 际 上 就 是 一 台 PC， 只 是 把 CPU、 内 存 、 简 化 的 键盘 、 麦 克 风 、 扬 声 器 和 无 线 网 络 连 
接 设备 装 在 一 个 小 盒子 里 。 

举 个 例子 ,设想 有 一 台 便 携 式 DVD 播放 器 。 它 内 艇 的 计算 机 必须 实现 下 面 的 功能 ， 

1) 为 磁头 定位 控制 一 个 便宜 但 不 可 靠 的 伺服 机 构 。 

2) 模拟 信号 到 数字 信号 的 转换 。 














3) 纠 错 功 能 。 

4) 解密 和 数字 版 权 管 理 。 

5 ) MPEG-2 视频 解压 缩 。 

6 ) 音频 解压 缩 。 

7 ) 将 输出 信号 编码 为 NTSC、PAL， 或 者 SECAM 电视 制式 。 

这 些 工作 必须 要 保证 实时 性 和 服务 质量 ， 同 时 还 要 受到 供电 、 散 热 、 大 小 、 重 量 和 价格 
等 条 件 的 约束 。 

CD, DVD 和 蓝光 光盘 都 包含 一 个 长 螺旋 线 来 存储 信息 ， 如 图 2-25 所 示 ( 图 中 是 CD )。 
这 一 节 我 们 来 讨论 DVD， 因 为 与 蓝光 光盘 相 比 ，DVD 现在 仍然 是 主流 ， 蓝 光 光 盘 的 编码 使 
用 了 MPEG-4， 而 不 是 DVD 中 的 MPEG-2， 除 此 之 外 它 和 DVD 非常 相似 。 对 于 所 有 的 光盘 
介质 ， 读 头 必 须 在 光盘 旋转 的 同时 ， 精 确 地 定位 到 螺旋 线 上 。 通 过 使 用 相对 简单 的 机 械 设计 
和 软件 对 头 位 置 的 严格 控制 来 降低 价位 。 头 读 取 的 信号 是 模拟 信号 ， 必 须 在 信和 号 处 理 前 转化 
为 数字 形式 。 在 信号 数字 化 之 后 ， 需 要 进行 严格 的 纠 错 ， 因 为 DVD 是 压缩 格式 ， 并 包含 很 多 
误差 ， 所 以 必须 通过 软件 纠正 。 视 频 信 和 号 使 用 MPEG-2 国际 标准 压缩 ， 对 其 解压 缩 需要 复杂 
的 (类 似 傅立叶 变换 ) 计算 。 音 频 信 和 号 使 用 一 种 心理 声学 模型 压缩 ， 对 其 解压 缩 也 需要 复杂 
的 计算 。 最 后 ， 音 频 和 视频 信号 必须 通过 一 种 合适 的 格式 输出 成 NTSC、PAL， 或 者 SECAM 
电视 制式 ， 这 取决 于 这 台 DVD 播放 器 要 销 往 的 国家 。 很 显然 ， 在 一 个 廉价 的 通用 CPU 上 通 
过 软件 实时 完成 所 有 这 些 工作 是 不 现实 的 。 这 里 需要 的 是 一 台 异 构 多 处 理 嚣 ， 它 包含 多 内 核 ， 
每 个 内 核 针对 一 项 特定 的 工作 。 图 8-12 给 出 了 一 个 DVD 播放 器 的 例子 。 

NTSC/PAL/SECAM 
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音频 解码 器 
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Cr WWE > 总 线 
图 8-12 采用 多 核实 现 不 同 功 能 的 异 构 多 处 理 器 构成 的 简单 DVD 播放 器 的 逻辑 结构 


图 8-12 中 的 内 核 的 功能 都 是 不 一 样 的， 每 个 内 核 都 是 精心 设计 的 ， 目 的 是 让 它们 用 最 低 
的 代价 来 非常 好 地 完成 各 自 的 任务 。 例 如 ，DVD 视频 用 MPEG-2 ( 由 Motion Picture Experts 
Group 提出 ) 方案 压缩 。 它 把 每 一 帧 分 解 成 像素 块 ， 并 对 每 一 块 做 复杂 的 转化 。 一 帧 可 以 由 
整个 转化 后 的 块 构成 ， 也 可 以 指定 在 前 一 帧 中 可 以 找到 某 块 ， 只 是 那 块 相对 当前 位 置 偏 稀 了 
(Ax，AD7， 少 数 像素 也 可 能 发 生 了 改变 。 软 件 来 完成 这 些 计 算是 很 慢 的 ， 而 可 以 设计 一 个 
MPEG-2 的 解码 引擎 来 用 硬件 实现 高 速 处 理 。 类 似 地 ， 音 频 解 码 ， 或 者 将 合成 的 音频 - 视频 
信号 按照 电视 信号 的 某 个 国际 标准 重新 编码 ， 都 可 以 通过 专门 的 硬件 处 理 器 很 好 地 完成 。 这 
些 分 析 结 果 很 快 就 将 我 们 的 思路 引 向 包含 为 音像 应 用 专门 设计 的 多 内 核 的 异 构 多 处 理 器 芯片 。 
然而 ， 由 于 控制 处 理 器 是 通用 的 可 编程 CPU， 所 以 多 处 理 器 芯片 也 能 用 在 其 他 类 似 的 应 用 领 
域 , 例如 DVD 录像 机 。 
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另外 一 种 需要 异 构 多 处 理 器 的 设备 是 高 级 移动 电话 的 引擎 。 当 前 的 这 类 和 手机 产品 有 时 会 
有 照相 机 、 摄 像 头 、 游 戏 机 、Web 浏览 器 、E-mail 阅读 工具 或 者 数字 卫星 无 线 电 接收 器 等 ， 
使 用 移动 电话 技术 (CDMA 或 者 GSM) 或 者 内 置 的 无 线 互 联网 (IEEE 802.11, 也 岂 Wi-Fi); 
将 来 的 产品 可 以 包含 所 有 这 些 功能 。 随 着 设备 的 功能 越 来 越 多 ， 如 手表 都 可 以 变 成 基于 GPS 
的 地 图 ， 而 眼镜 也 能 变 成 收音 机 ， 对 蜡 构 多 处 理 髓 的 需求 会 日 益 增 长 。 

很 快 一 枚 芯片 将 可 以 布 上 数 十 亿 个 晶体 管 。 在 这 样 的 芯片 上 ,一 次 性 完成 每 个 门 和 每 根 
线 的 设计 简直 就 是 天 方 夜 谭 ， 即 使 能 设计 出 来 ， 等 到 设计 完成 ， 芯 片 也 早已 过 时 了 。 唯 一 切 
实 可 行 的 办 法 ， 就 是 找 许多 包含 相当 数量 部 件 的 内 核 ( 基 库 )， 并 根据 需要 将 这 些 内 核 布 置 
在 芯片 上 ， 然 后 进行 互联 。 设 计 者 必须 决定 用 哪个 CPU 内 核 来 做 控制 处 理 器 ， 并 且 要 确定 用 
哪些 专门 的 处 理 器 来 协助 它 。 让 运行 在 控制 处 理 器 上 的 软件 来 分 担 更 多 的 工作 ， 也 许 会 导致 
系统 慢 一 些 ， 却 可 以 生产 出 小 一 些 ( 也 便宜 一 些 ) 的 芯片 。 放 置 更 多 的 视频 音频 专用 处 理 器 ， 
会 增 大 芯片 的 面积 ， 并 增加 成 本 ， 却 可 以 在 较 低 主 频 的 条 件 下 ， 获 得 更 高 性 能 。 而 低 主 频 意 
味 着 低能 耗 和 低 散 热 。 因 此 ， 芯 片 设 计 者 日 益 转 向 如 何 实现 宏观 状况 的 平衡 ， 而 不 再 担忧 哪 
个 晶体 管 应 该 放 在 哪儿 了 。 

音像 应 用 中 数据 是 很 密集 的 。 大 量 的 数据 必须 很 快 地 进行 处 理 ， 所 以 通常 50% ~ 75% 
的 芯片 面积 被 内 存 占用 ， 而 这 个 数量 还 在 不 断 增 大 。 应 该 用 多 少 级 cache ? 这 些 cache 应 该 分 
离 还 是 合并 起 来 ? 每 个 cache 应 该 多 大 ? 每 个 cache 应 该 多 快 ? 在 这 个 蕊 片上 是 否 应 该 也 引入 
一 些 真正 的 内 存 ? 用 SRAM 还 是 用 SDRAM ? 这 些 问 题 的 答案 主要 涉及 芯片 的 性 能 、 能 耗 和 
散热 情况 。 

除了 设计 处 理 器 和 内 存 系统 ， 另 一 个 可 以 考虑 改进 的 方面 是 通信 系统 一 一 这 些 内 核 之 间 
如 何 进行 通信 ? 对 于 规模 较 小 的 系统 ， 单 总 线 就 能 完成 这 项 任务 ,但 规模 大 一 些 的 系统 ， 总 
线 就 会 迅速 变 成 瓶颈 。 要 解决 这 个 问题 ， 通 常 可 以 引进 多 总 线 ， 或 者 在 内 核 之 间 建 立 环 路 。 
对 于 后 者 ， 仲 裁 是 通过 在 环 路 上 发 送 一 个 叫做 令 牌 (token ) 的 包 来 处 理 的 。 内 核 必 须 获得 令 
牌 之 后 ， 才 能 进行 传输 。 当 这 个 内 核 的 传输 完成 ， 它 就 把 令 牌 放 回 环 路 ， 令 牌 就 可 以 继续 循 
环 下 去 。 这 个 协议 避免 了 令 牌 冲突 。 

图 8-13 给 出 了 一 个 片 内 互联 的 例子 ，IBM CoreConnect。 这 是 在 单 片 异 构 多 处 理 器 上 ， 
尤其 是 完全 的 片 内 系统 ( System-On-a-Chip，SOC ) h; 连接 内 核 的 体系 结构 。 在 某 种 意义 
E, CoreConnect 之 于 片上 多 处 理 器 ， 就 相当 于 PCI 总 线 之 于 Pentium， 是 把 所 有 部 分 连接 起 
来 的 粘 合 剂 。 然 而 ， 与 PCI 总 线 不 同 的 是 ， 在 设计 CoreConnect 时 ， 并 不 用 考虑 向 后 兼容 旧 
的 部 件 或 者 协议 ， 也 不 必 受 板 级 总 线 的 约束 ， 例 如 边缘 连接 器 管 脚 数 目的 限制 。 








外 围 设备 总 线 


图 8-13 IBM CoreConnect 体系 结构 的 例子 


CoreConnect 由 三 条 总 线 组 成 。 处 理 器 总 线 (processor bus) 是 高 速 、 同 步 、 流 水 线 式 
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的 总 线 。 有 32、64 或 者 128 位 数据 线 ， 频 率 是 66、133 或 者 183MHz。 最 大 吞吐 量 能 达到 


23.4Gbps ( PCI 总 线 只 能 达到 4.2Gbps )。 流 水 线 特征 允许 内 核 在 传递 数据 的 同时 发 出 总 线 请 
求 ， 并 允许 不 同 的 内 核 在 同一 时 间 使 用 不 同 的 线 ， 这 一 点 类 似 于 PCI 总线。 处理 器 总 线 是 针 
对 短 块 传输 优化 设计 。 它 的 目标 是 连接 诸如 CPU 的 高 速 内 核 、MPEG-2 解码 器 、 高 速 网 络 和 
其 他 类 似 的 对 象 。 

如 果 让 处 理 器 总 线 贯穿 整个 芯片 ， 会 大 大 降低 它 的 性 能 ， 所 以 引进 了 另 一 条 总 线 ， 来 连 
FABLE (REN IO 设备 ， 例 如 UART、 定 时 器 、USB 控制 器 以 及 串 行 IO 设备 等 。 这 条 外 围 
Ttk (peripheral bus ) 设计 的 目标 是 为 外 围 设备 提供 8 位 、16 位 和 32 位 的 接口 ， 所 以 可 以 尽 
量 简化 ， 一 般 只 使 用 几 百 个 门 。 它 也 是 一 条 同步 总 线 ， 最 大 吞吐 量 达 到 300Mbps。 这 两 条 总 
线 通 过 一 个 桥 电 路 进行 连接 ， 但 这 里 提 到 的 桥 ， 并 不 像 多 年 前 就 已 提出 的 PC 中 连接 PCI 和 
ISA 总 线 的 桥 。 

第 三 条 总 线 是 设备 寄存 器 总 线 (device register bus )， 这 是 一 条 低速 、 异 步 、 握 手 式 总 线 ， 
它 允 许 处 理 器 访问 所 有 外 围 设备 的 寄存 器 ， 以 便于 控制 相应 的 设备 。 它 每 次 只 传输 几 字 节 ， 
并 且 很 少 用 到 。 

通过 提供 标准 的 片 内 总 线 、 接 口 和 框架 ，IBM 希望 创造 一 个 微型 版 本 的 PCI 世界， 在 这 
个 世界 里 ， 很 多 制造 商 生 产 易 于 插 接 的 处 理 器 和 控制 器 。 然 而 不 同 的 是 ,在 PCI 世界 里 ， 制 
造 商 生产 真正 的 电路 板 ， 并 销售 给 PC 厂家 和 最 终 用 户 。 而 在 CoreConnect 世界 里 ， 第 三 方 设 
计 但 不 生产 内 核 。 他 们 将 设计 结果 作为 知识 产权 ， 授 权 给 消费 电子 产品 公司 和 其 他 公司 ， 由 
这 些 公 司 基于 自己 和 第 三 方 授权 的 内 核 ， 设 计 定 制 的 异 构 多 处 理 器 芯片 。 由 于 制造 这 么 大 规 
模 并 且 复 杂 的 芯片 需要 大 量 的 制造 设备 方面 的 投资 ， 大 多 数 情况 下 ， 消 费 电 子 产品 公司 只 是 
完成 设计 ， 将 芯片 制造 过 程 外 包 给 半导体 厂家 。 人 们 设计 并 生产 了 各 式 各 样 的 内 核 ， 有 为 各 
种 CPU (ARM, MIPS, PowerPC 等 ) 设计 的 ， 也 有 为 MPEG 解码 器 设计 的 ， 还 有 数字 信和 号 
处 理 器 以 及 所 有 的 标准 IO 控制 器 。 

IBM CoreConnect 并 不 是 市 场 上 唯一 流行 的 片 内 总 线 。AMBA (Advanced Microcontroller 
Bus Architecture ) 也 得 到 广泛 应 用 (Flynn，1997 )， 用 于 将 ARM CPU 与 其 他 CPU 和 IO 
设备 连接 在 一 起 。 其 他 稍 差 一 些 的 片 内 总 线 还 有 VCI (Virtual Component Interconnect) 和 
OCP-IP ( Open Core Protocol-International Partnership )， 也 在 竞争 市 场 份额 (Bhakthavatchalu 
等 ，2010 )。 片 内 总 线 仅仅 是 个 开始 ; 人 们 现在 甚至 在 考虑 把 整个 网 络 都 集成 到 一 个 芯片 上 
(Ahmadinia 和 Shahrabi，2011)。 

由 于 散热 问题 得 不 到 很 好 的 解决 ， 芯 片 制 造 商 们 要 提高 主 频 越 来 越 难 ， 这 样 一 来 ， 单 
片 多 处 理 器 就 成 为 一 个 非常 热门 的 话题 。 更 多 信息 请 参考 Gupta 等 人 (2010), Herrero 等 人 
(2010), Mishra A (2011) 的 相关 工作 。 


8.2 协 处 理 器 


前 面 我 们 主要 讨论 了 一 些 实现 片 内 并 行 的 方法 ， 下 面 我 们 要 更 进一步 ， 看 一 下 如 何 通过 
增加 另 一 个 专用 的 处 理 器 来 提高 计算 机 的 速度 。 这 些 协 处 理 器 ( coprocessor) 有 很 多 种 类 ， 
从 小 到 大 ， 不 一 而 足 。 在 IBM 360 主机 及 其 后 继 产 品 中 ， 已 经 通过 使 用 独立 的 IO 通道 来 进 
行 输入 输出 。 类 似 地 ，CDC 6600 有 10 个 独立 的 处 理 器 来 完成 输入 /输出 工作 。 图 形 学 和 浮 
点 运算 领域 也 用 到 了 协 处 理 器 。 甚 至 一 个 DMA 芯片 就 可 以 看 作 一 个 协 处 理 器 。 在 某 些 情况 
F, CPU 分 配给 协 处 理 器 一 条 指令 或 者 一 组 指令 ， 并 让 协 处 理 器 执行 这 些 指令 ; 在 另 一 些 情 
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况 下 ， 协 处 理 器 能 更 加 独立 地 运行 ， 而 不 依赖 CPU, 

从 物理 的 角度 看 ， 协 处 理 器 可 以 是 一 个 单独 的 机 柜 (360 VO 通道 )， 也 可 以 是 主板 上 的 
插 接 板 ( 网 络 处 理 器 )， 其 至 可 以 是 主 芯 片上 的 一 部 分 区 域 ( 浮 点 运算 )。 区 分 是 否 是 协 处 理 
器 的 标准 ， 就 是 看 是 否 存在 其 他 处 理 器 作为 主 处 理 器 ， 而 协 处 理 器 只 是 为 了 协助 主 处 理 器 工 
作 。 下 面 我 们 就 讨论 一 下 协 处 理 器 可 以 发 挥 作用 的 三 个 领域 : 网 络 处 理 、 多 媒体 和 密码 系统 。 


8.2.1 网 络 处 理 器 


如 今 ， 绝 大 多 数 的 计算 机 已 经 接 人 某 个 网 络 或 者 互联 网 。 随 着 网 络 硬 件 技术 的 进步 ， 网 
络 发 展 是 如 此 之 快 ， 用 软件 来 处 理 网 络 上 流动 的 所 有 数据 ， 变 得 越 来 越 困 难 。 因 此 ， 人 们 开 
发 出 专门 的 网 络 处 理 器 来 处 理 网 络 上 日 益 增 大 的 流量 ， 并 且 已 经 在 很 多 高 端 计 算 机 上 投入 使 
用 。 在 本 节 中 我 们 先 简 要 介绍 一 下 网 络 知识 ， 然 后 讨论 网 络 处 理 器 如 何 工作 。 

1. 网 络 简介 

计算 机 网 络 一 般 可 以 分 为 两 类 : 局 域 网 (Local-Area Network, LAN ) 和 广域网 (Wide- 
Area Network, WAN ), LAN 可 以 将 同一 建筑 或 同一 校园 内 的 多 台 计 算 机 连接 起 来 。 而 WAN 
是 一 种 跨越 地 域 的 大 网 络 ， 能 将 不 同 地 区 的 计算 机 连接 起 来 。 最 流行 的 LAN 叫做 以 太 网 
(Ethernet )。 最 初 的 以 太 网 使 用 一 根 很 粗 的 同 轴 电 缆 ， 每 台 计 算 机 上 引出 一 条 线 ， 通 过 吸血 
5232 (vampire tap) 强制 播 到 这 根 电缆 上 。 现 代 的 以 太 网 把 计算 机 连接 到 一 台中 央 交 换 机 
E, WA 8-14 右 方 所 示 。 最 初 的 以 太 网 传输 速度 只 有 3Mbps， 但 第 一 个 商业 版 本 的 速度 是 
10Mbps。 它 正 逐 渐 被 高 速 的 100Mbps 以 太 网 取代 ， 再 往 后 要 被 1Gbps 的 千 兆 以 太 网 取代 。 
10G 的 以 太 网 已 经 出 现在 市 场 上 ， 并 且 40G 的 以 太 网 也 出 现在 生产 线 上 了 。 


应 用 提供 场所 
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光纤 链 路 
图 8-14 互联 网 上 用 户 如 何 连 接 到 服务 器 


WAN 采用 的 是 不 同 的 组 织 方式 。 它 使 用 专用 的 计算 机 ， 就 是 通常 说 的 路 由 器 (router ), 
通过 网 线 或 者 光缆 连接 ， 如 图 8-14 中 间 部 分 所 示 。 数 据 块 被 称 作 分 组 (packet )， 大 小 一 般 
64 字 节 到 1500 字 节 左右 ， 它 从 源 机 器 发 出 ， 经 由 一 个 或 多 个 路 由 器 ， 最 终 到 达 目 的 机 器 。 
在 每 一 跳 , 分 组 先 被 存储 在 路 由 器 的 内 存 中 ， 一 旦 需要 的 传输 路 线 可 用 ， 就 被 沿 着 传输 路 径 
传送 给 下 一 个 路 由 器 。 这 项 技术 称 作 存储 转发 分 组 交换 ( store-and-forward packet switching ). 

尽管 很 多 人 把 互联 网 当成 一 个 单独 的 WAN， 从 技术 角度 讲 ， 互 联网 是 由 很 多 WAN 连接 
在 一 起 组 成 的 集合 。 然 而 ， 在 我 们 看 来 ， 这 个 区 别 并 不 重要 。 图 8-14 给 出 了 一 个 家 庭 用 户 眼 


412 GBF 


里 的 互联 网 。 这 位 用 户 的 计算 机 通过 电话 系统 连接 到 Web 服务 器 ， 可 能 是 通过 56kbps 的 拨 


号 调制 解 调 器 ,或 者 通过 宽带 ADSL， 这 些 在 第 2 章 中 讨论 过 。( 作为 一 种 选择 ， 也 可 以 使 用 
有 线 电视 ， 则 图 8-14 左边 的 ISP 应 该 改 成 有 线 电视 公司 。) 用 户 的 计算 机 将 发 往 服务 器 的 数 
据 分 组 ， 然 后 把 这 些 分 组 发 送 给 用 户 的 ISP (Internet Service Provider )，ISP 是 互联 网 服务 供 
应 商 ， 为 客户 提供 互联 网 访问 。ISP 能 够 高 速 (通常 使 用 光纤 ) 连接 到 区 域 网 或 者 骨干 网 。 用 
户 的 分 组 在 互联 网 上 被 逐 跳 (hop-by-hop ) 传送 ， 直 到 到 达 Web 服务 器 。 

提供 Web 服务 的 大 多 数 公 司 都 有 一 台 叫 做 防火 墙 (firewall ) 的 专用 计算 机 ， 防 火 墙 用 来 
过 滤 输 入 的 数据 ， 以 便 丢弃 不 受 欢 迎 的 分 组 (例如 黑客 试图 侵入 网 络 而 发 送 的 分 组 )。 防 火 墙 
连接 到 本 地 的 局 域 网 ， 典 型 的 是 以 太 网 交换 机 ， 它 将 分 组 路 由 到 期 望 的 服务 器 。 当 然 ， 实 际 
情况 要 比 我 们 讲 的 复杂 得 多 ， 但 基本 思想 就 是 图 8-14 描述 的 那样 。 

网 络 软件 由 多 种 协议 ( protocol ) 组 成 ， 每 一 个 协议 都 是 由 格式 、 交 换 顺 序 和 定义 分 组 含 
义 的 规则 组 成 的 集合 。 例 如 ， 当 用 户 想 从 服务 器 取得 一 个 Web 网 页 时 ， 用 户 的 浏览 器 发 送 一 
个 包含 GET PAGE 请 求 的 分 组 ,使 用 HTTP( HyperText Transfer Protocol ) 协议 发 送 到 服务 器 ， 
Web 服务 器 知道 如 何 处 理 这 些 请 求 。 许 多 协议 经 常 组 合 使 用 。 在 大 多 数 情 况 下 ， 协 议 被 划分 
成 一 系列 层 ， 上 层 将 分 组 交 给 下 层 处 理 ， 而 最 后 由 底层 完成 实际 的 传输 。 在 接收 端 ， 分 组 则 
从 底层 向 上 层 传递 。 

由 于 网 络 处 理 器 的 工作 就 是 协议 处 理 ， 所 以 ， 在 分 析 网 络 处 理 器 之 前 ， 有 必要 先 解 释 一 
下 协议 。 我 们 先 回顾 一 下 GET PAGE 请 求 。 它 是 如 何 传 到 Web 服务 器 的 呢 ? 过程 是 这 样 的 : 
浏览 器 先 通 过 TCP ( Transmission Control Protocol ) 传输 控制 协议 与 Web 服务 器 建立 连接 。 
实现 这 个 协议 的 软件 会 检查 是 否 所 有 的 分 组 都 被 正确 并 且 按 合适 的 顺序 接收 。 如 果 有 分 组 丢 
失 ，TCP 软件 会 将 丢失 的 分 组 重 传 ， 可 能 需要 多 次 ， 直 到 被 正确 接收 。 

实际 过 程 是 ，Web 浏览 器 将 GET PAGE 请 求 格式 化 成 一 个 HTTP 消息 ， 然 后 通过 连接 将 
它 传递 给 TCP 软件 进行 传送 。TCP 软件 在 这 则 消息 前 面 加 上 一 个 报头 ， 其 中 包含 一 个 序号 和 
其 他 信息 。 这 个 报头 自然 就 叫做 TCP 报头 ( TCP header )。 

这 些 完成 之 后 ，TCP 软件 将 TCP 报头 和 有 效 载荷 (包含 GET PAGE 请 求 ) 传递 给 另 一 
个 实现 IP 协议 (Internet Protocol ) 的 软件 ， 这 个 软件 再 将 一 个 IP 报头 (IP header ) 加 到 分 组 
前 面 ，IP 报头 包含 源 主机 地 址 ( 发 出 分 组 的 机 器 )、 目 的 地 址 (分 组 发 送 的 目标 机 器 )、 分 组 
存活 的 跳 数 ( 防止 丢失 的 分 组 一 直 存 活 )、 校 验 和 ( 检查 传输 和 存储 错误 ) 以 及 其 他 字段 。 

接 下 来 得 到 的 分 组 (现在 包含 IP 报头、TCP 报头 和 GET PAGE 请 求 ) 被 传递 到 数据 链 
路 层 。 一 个 数据 链 路 报头 又 被 加 到 实际 分 组 的 前 面 。 数 据 链 路 层 也 在 结尾 加 上 一 个 叫做 循环 
TAR (Cyclic Redundancy Code, CRC) 校 验 和 ， 用 来 检查 传输 错误 。 在 数据 链 路 层 和 IP 层 
都 加 上 校 验 和 ,或许 看 起 来 是 重复 的 ， 但 能 提高 可 靠 性 。 在 每 一 跳 都 会 检查 CRC, Ff ABE 
FARK A CRC 会 被 剥 去 并 重新 生成 ， 选 择 一 个 合适 的 格式 以 适应 输出 链 路 。 图 8-15 给 出 了 
在 以 太 网 上 传输 时 分 组 的 组 成 ; 在 电话 线 上 (用 于 ADSL) 也 与 此 很 类 似 ， 只 是 用 一 个 “ 电 
话 线 报头 ”代替 了 “以 太 网 报头 "”。 报 头 管理 是 非常 主要 的 ， 这 也 正 是 网 络 处 理 器 要 完成 的 工 
作 。 显 然 ， 我 们 只 是 涉及 了 计算 机 网 络 的 一 点 皮毛 ， 更 多 信息 请 参考 Tanenbaum 和 Wetherall 
(2011) 的 相关 工作 。 


以 太 网 IP TCP C 


图 8-15 以太 网 上 的 分 组 
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2. 网 络 处 理 器 简介 

很 多 种 设备 都 连接 到 网 络 。 最 终 用 户 使 用 PC (台式 机 和 笔记 本 )， 当 然 ， 越 来 越 多 的 游 
戏 机 、PDA (palmtop) 和 移动 电话 也 加 入 这 个 阵营 。 公 司 使 用 PC 机 和 服务 器 作为 端 系统 。 
然而 ， 也 有 很 多 设备 在 网 络 中 起 中 间 系 统 的 作用 ， 包 括 路 由 器 、 交 换 机 、 防 火 墙 、Web 代理 
和 负载 均衡 器 。 很 有 意思 的 是 ， 对 中 间 系 统 的 要 求 是 最 高 的 ， 因 为 它们 每 秒 都 要 移动 大 量 的 
分 组 。 对 服务 器 的 要 求 也 很 高 ， 而 对 用 户 机 器 就 设 什 么 要 求 了 。 

输入 的 分 组 在 继续 向 前 传送 或 者 交 给 应 用 层 之 前 ， 可 能 需要 进行 各 种 各 样 的 处 理 ， 这 取 
决 于 网 络 和 分 组 自身 的 情况 。 这 些 处 理 可 能 包括 : 做 出 将 分 组 向 哪儿 发 送 的 决定 、 将 分 组 分 
段 或 者 重组 、 分 组 的 服务 质量 管理 ( 特别 是 音频 和 视频 流 )、 管 理 安全 ( 例如 加 密 或 者 解密 )、 
压缩 /解压 缩 等 。 

如 果 LAN 将 速率 增加 到 40Gbps 来 传输 1KB 大 小 的 分 组 ， 那么 一 个 网 络 计 算 机 每 秒 可 
能 要 处 理 将 近 500 万 个 分 组 。 对 于 64 字 节 的 分 组 ， 这 个 数目 将 增加 到 将 近 8000 万 。 要 在 
12 ~ 200ns (另外 还 可 能 需要 分 组 的 多 个 拷贝 ) 内 完成 前 面 提 到 的 这 些 工 作 ， 靠 软件 根本 是 
做 不 到 的 ， 必 须要 有 硬件 支持 。 

一 种 快速 分 组 处 理 的 硬件 解决 方案 是 使 用 一 个 定制 的 ASIC ( Application-Specific Integrated 
Circuit) 芯片 。 这 样 的 芯片 就 像 一 个 硬 连 线 的 程序 ， 能 完成 任何 设计 的 处 理 功能 。 许 多 路 由 器 
就 是 使 用 ASIC。 然 而 ，ASIC 有 很 多 问题 。 首 先 ， 设 计 与 制造 需要 很 多 时 间 ， 而 且 ASIC 是 固 
定 的 ， 如 果 需 要 加 入 新 功能 ， 就 不 得 不 设计 并 制造 新 的 芯片 。 其 次 ， 由 于 维修 ASIC 的 唯一 手 
段 就 是 设计 、 制 造 、 运 输 和 安装 新 的 芯片 ， 所 以 处 理 故 障 是 相当 困难 的 。 而 且 ，ASIC 的 设计 
开发 成 本 是 很 高 的 ， 除 非 产 量 足 够 大 ， 这 样 可 以 将 开发 成 本 分 摊 到 大 量 的 芯片 上 。 

另 一 种 解决 方案 是 现场 可 编程 门 阵 列 (Field Programmable Gate Array, FPGA )， 可 以 将 
大 量 的 门 进行 重新 连 线 构成 需要 的 电路 。 与 ASIC 相 比 这 样 的 芯片 可 以 非常 快 地 投入 市 场 ， 
并 可 以 现场 重新 连 线 ， 只 需要 从 系统 中 拔 下 来 ， 并 插入 一 个 专用 的 设备 即 可 重新 编程 。 另 一 
方面 ， 这 些 也 非常 复杂 、 缓 慢 ， 并 且 昂 贵 ， 所 以 ， 只 有 某 些 特定 的 应 用 对 FPGA 感 兴趣 。 

最 后 ， 我 们 想到 了 网 络 处 理 器 (network processor )， 它 们 是 可 以 线 速 ( 例如 实时 ) 处 理 输入 
和 输出 分 组 的 可 编程 设备 。 通 常设 计 成 一 块 可 插 接 的 板 ， 由 网 络 处 理 器 芯片 以 及 内 存 和 支持 逻辑 
电路 构成 。 一 条 或 多 条 网 线 连 到 这 块 板 上 ， 进 而 连 到 网 络 处理 器 。 在 网 络 处 理 器 中 ， 分 组 被 提取 、 
处 理 ， 然 后 可 能 发 送 到 不 同 的 网 路 (例如 发 往 路 由 器 )， 如 果 本 机 就 是 最 终 用 户 设 备 (例如 PC), 
也 可 能 发 送 到 主 系统 总 线 ( 例如 PCI 总 线 ) 一 个 典型 的 网 络 处 理 器 板 和 芯片 如 图 8-16 所 示 。 


络 处 理 
网 络 处 器 板 








图 8-16 典型 的 网 络 处 理 器 板 和 芯 
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这 块 板 上 同时 提供 SRAM 和 SDRAM， 并 且 通 常 按 不 同 的 方式 使 用 。SRAM tt SDRAM 


快 一 些 ， 但 也 贵 一 些 ， 所 以 只 使 用 了 少量 。SRAM 用 来 保存 路 由 表 和 其 他 关键 的 数据 结构 ， 


而 SDRAM 保存 实际 要 进行 处 理 的 分 组 。SRAM 和 SDRAM 是 外 接 到 网 络 处 理 器 芯片 上 的 ， 
所 以 ， 设 计 者 可 以 灵活 决定 各 使 用 多 少 。 通 过 这 种 方式 ， 低 端 板 只 接 一 条 单独 的 网 线 〈 例如 
PC 或 服务 器 )， 可 以 配备 少量 的 内 存 ， 而 为 大 型 路 由 器 设计 的 高 端 板 就 需要 配备 更 多 内 存 。 

网 络 处 理 器 芯片 优化 的 目标 是 高 速 处 理 大 量 的 输入 与 输出 分 组 。 每 条 网 路 每 秒 要 处 理 数 
百 万 个 分 组 ， 而 一 台 路 由 器 常常 有 6 条 以 上 这 样 的 网 路 。 要 达到 这 样 的 处 理 速率 ， 只 能 通过 
引信 内 部 高 度 并 行 的 网 络 处理 器 。 实 际 上 ， 所 有 的 网 络 处 理 器 都 由 多 个 PPE 组 成 ，PPE 的 称 
谓 很 多 ， 如 协议 /可 编程 /分 组 处 理 引 警 Protocol/Programmable/Packet Processing Engine )。 
每 个 PPE 都 有 一 个 RISC 内 核 〈 可 能 修改 过 的 ) 和 少量 用 来 存储 程序 和 变量 的 内 存 。 

PPE 的 组 织 方式 有 两 种 。 最 简单 的 方式 是 全 部 采用 同样 的 PPE。 当 一 个 分 组 到 达 网 络 处 理 
器 ,不 管 这 个 分 组 是 从 网 络 输入 还 是 从 总 线 向 外 输出 ， 它 都 被 提交 给 一 个 空闲 的 PPE 处 理 。 如 
果 没 有 空闲 的 PPE， 分 组 就 进入 板 上 SDRAM 中 的 队列 等 候 ， 直 到 出 现 空闲 的 PPE。 使 用 这 种 
组 织 方式 时 ， 图 8-16 中 PPE 之 间 水 平方 向 的 连接 并 不 存在 ， 因 为 PPE 之 间 不 需要 互相 通信 。 

另 一 种 组 织 方式 是 流水 线 方式 。 在 这 种 方式 中 ， 每 个 PPE 执行 一 步 处 理 ， 然 后 将 一 个 指 
向 流水 线 上 的 下 一 个 PPE 的 指针 填 到 输出 分 组 上 。 在 这 种 方式 下 ，PPE 流水 线 工作 起 来 很 像 
我 们 第 2 章 里 提 到 的 CPU 流水 线 。 在 这 两 种 组 织 方式 下 ，PPE 都 是 完全 可 编程 的 。 

在 更 高 级 的 设计 中 ，PPE 可 以 引入 多 线程 技术 ， 意 味 着 它们 有 多 个 寄存 器 组 ， 并 有 一 个 
硬件 寄存 器 来 标识 哪 一 个 正在 使 用 。 这 个 特征 允许 一 个 程序 〈《 即 线程 ) 只 通过 改变 “当前 寄 
存 器 组 ”变量 就 能 实现 切换 ， 所 以 能 同时 运行 多 个 程序 。 最 普通 地 ， 当 一 个 PPE 暂停 时 ， 例 
如 ， 当 它 要 用 到 SDRAM 时 ( 这 要 占用 多 个 时 钟 周期 )， 它 能 迅速 切换 到 一 个 可 执行 的 线程 。 
在 这 种 方式 下 ， 即 使 在 访问 SDRAM 或 者 执行 其 他 低速 的 外 部 操作 频繁 发 生 阻塞 时 ，PPE 也 
能 达到 很 高 的 利用 率 。 

除了 PPE 之 外 ， 所 有 的 网 络 处 理 器 都 包含 一 个 控制 处 理 器 ， 通 常 只 是 一 个 标准 的 通用 
RISC CPU, 来 执行 所 有 与 分 组 处 理 无 关 的 工作 ， 例 如 更 新 路 由 表 。 它 的 程序 和 数据 存在 本 地 
的 片 内 内 存 里 。 许 多 网 络 处 理 器 芯片 还 包含 一 个 或 多 个 专用 处 理 器 ,来 进行 模式 匹配 或 者 其 
他 关键 的 操作 。 这 些 处 理 器 实际 上 是 小 型 的 ASIC， 能 高 效 完成 某 个 简单 操作 ， 例 如 从 路 由 表 
中 查找 某 个 目标 地 址 。 网 络 处 理 器 的 所 有 组 件 通 过 一 个 或 者 多 个 芯片 和 并 行 总 线 ( 以 几 Gbps 
的 速度 运行 ) 进行 通信 。 

3. 分 组 处 理 

不 管 网 络 处 理 妖 的 组 织 方 式 是 并 行 的 还 是 流水 线 的 ， 到 达 的 分 组 都 会 经 过 数 个 处 理 阶 
段 。 一 些 网 络 处 理 器 将 这 些 步 又 分 解 成 对 输入 分 组 的 操作 ( 不 管 来 自 网 路 还 是 来 自 系统 总 
线 )， 称 作 入 口 处 理 ( ingress processing )， 或 者 是 对 输出 分 组 的 操作 ， 称 作出 口 处 理 (egress 
progressing )。 进 行 这 样 的 区 分 后 ， 每 个 分 组 首先 经 过 入 口 处 理 ， 然 后 经 过 出 口 处 理 。 入 口 和 
出 口 处 理 之 间 的 界限 是 很 灵活 的 ， 因 为 一 些 步 又 在 两 边 都 可 以 进行 ( 例如 收集 流量 信息 )。 

下 面 我 们 将 讨论 这 些 步 又 可 能 的 顺序 ， 但 应 当 注 意 的 是 ， 并 不 是 所 有 的 分 组 都 需要 所 有 
的 步 又， 而 且 许多 其 他 的 顺序 也 是 合理 的 。 

1) 验证 校 验 和 。 如 果 输 入 的 分 组 来 自 以 太 网 ，CRC 将 被 重新 计算 ， 然 后 就 可 以 跟 分 组 
的 CRC 比较 ， 以 确认 没有 传输 错误 。 如 果 以 太 网 CRC 是 正确 的 或 者 没有 CRC, ABA IP 校 验 
和 就 重新 计算 并 和 分 组 内 的 校 验 和 比较 ， 以 确保 他 分 组 没有 损坏 。 因 为 在 计算 完了 他 校 验 和 
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之 后 ， 发 送 者 计算 机 内 存 中 某 位 出 错 ， 就 可 能 导致 耻 分 组 损坏 。 如 果 所 有 的 校 验 和 都 是 正确 
的 ， 分 组 就 被 接受 以 进行 更 进一步 的 处 理 ; 否则 分 组 就 会 被 直接 丢弃 。 

2) 域 提 取 。 解 析 相 关 的 报头 并 把 关键 域 提 取出 来 。 在 以 太 网 交换 机 中 ， 只 检查 以 太 网 报 
头 ， 而 在 一 个 IP 路 由 器 中 ， 则 只 会 检查 IP 报头 。 关 键 域 被 存在 寄存 器 (IFAT PPE 组 织 结构 ) 
或 者 SRAM ( 流水线 组 织 结构 ) 中 。 

3) 分 组 分 类 。 依 据 一 系列 可 编程 规则 将 分 组 分 类 。 最 简单 的 分 类 是 将 数据 分 组 与 控制 分 
组 区 分 开 ， 但 实际 中 通常 采用 更 细致 的 区 分 。 

4) 路 径 选 择 。 大 多 数 网 络 处 理 器 有 一 个 专用 的 快速 路 径 优 化 策略 来 处 理 普 通 的 数据 分 
组 ， 而 对 其 他 的 分 组 采取 不 同 的 策略 ， 通 常 交 由 控制 处 理 器 处 理 。 因 此 ， 快 的 路 径 与 慢 的 路 
径 都 要 经 过 选择 。 

5 ) 确定 目标 网 络 地 址 。IP 分 组 包含 一 个 32 位 的 目标 地 址 。 不 可 能 也 没 必要 维护 一 个 23 
个 入口 的 路 由 表 来 查找 每 个 IP 分 组 的 目标 地 址 ， 所 以 每 个 P 地 址 最 左边 的 部 分 是 网 络 地 址 ， 
而 剩 下 的 部 分 是 主机 地 址 。 网 络 地 址 可 以 是 任意 长 度 ， 所 以 确定 目标 网 络 地 址 是 很 重要 的 ， 
而 且 由 于 可 能 存在 多 种 匹配 和 最 长 匹配 的 问题 ， 让 查找 变 得 更 加 困难 。 通 常用 定制 的 ASIC 
来 完成 这 一 步 。 

6) 路 由 查找 。 一 旦 目标 网 络 地 址 确定 ， 就 可 以 从 存储 在 SRAM 中 的 路 由 表 中 查找 输出 
线路 。 同 样 ， 可 以 用 定制 的 ASIC 来 完成 这 一 步 。 

7 ) 分 段 与 重组 。 程 序 喜欢 将 大 载荷 交 给 TCP 层 处 理 ， 以 减少 系统 调用 的 次 数 。 但 TCP. 
IP 和 以 太 网 都 只 能 处 理 限 定 大 小 的 分 组 。 限 制 的 结果 是 ， 载 荷 和 分 组 可 能 需要 在 发 送 端 分 段 ， 
并 在 接收 端 重组 。 这 些 工 作 都 可 以 交 给 网 络 处 理 器 完成 。 

8) 计算 。 有 时 需要 对 载荷 进行 大 量 的 计算 ， 例 如 数据 压缩 /解压 缩 和 加 密 / 解密。 这 些 
工作 也 可 以 交 给 网 络 处 理 器 完成 。 

9 ) 报头 管理 。 有 时 需要 为 分 组 加 上 或 者 剥 去 报头 ， 或 者 改变 报头 中 某 些 域 的 值 。 例 如 ， 
IP 报头 有 一 个 域 ， 用 来 保存 该 分 组 在 丢弃 之 前 还 能 存活 的 跳 数 ， 它 每 被 重 传 一 次 ， 这 个 域 必 
须 减 1， 也 可 以 让 网 络 处 理 器 来 做 。 

10) 队列 管理 。 输 入 和 输出 的 分 组 常常 不 得 不 进入 队列 来 等 待 处 理 。 多 媒体 应 用 可 能 需 
要 一 定 的 交叉 分 组 空间 ， 以 避免 抖动 。 防 火 墙 或 者 路 由 器 可 能 需要 依据 一 定 的 规则 ， 将 输入 
的 载荷 分 布 到 多 条 输出 线路 上 。 所 有 这 些 工作 都 可 以 交 给 网 络 处 理 器 来 做 。 

11) 生成 校 验 和 。 输 出 的 分 组 需要 插入 校 验 和 。1IP 校 验 和 可 以 由 网 络 处 理 器 产生 ， 但 以 
太 网 CRC 是 由 硬件 计算 产生 的 。 

12) 计 费 。 在 一 些 情况 下 ， 需 要 进行 分 组 流量 计 费 ， 特 别 是 网 络 向 其 他 网 络 传输 数据 来 
提供 商业 服务 时 更 加 需要 。 网 络 处 理 器 可 以 完成 计 费 功能 。 

13) 收集 统计 信息 。 最 后 ， 许 多 组 织 喜欢 收集 他 们 的 流量 统计 信息 ， 他 们 想 知 道 有 多 少 
分 组 进来 和 出 去 ， 在 一 天 的 什么 时 间 进 行 等 等 。 网 络 处 理 器 是 收集 流量 信息 的 好 工具 。 

4. 改进 性 能 

性 能 是 衡量 网 络 处 理 器 的 主要 指标 。 如 何 能 提高 性 能 呢 ? 当 然 ， 在 思考 提高 性 能 的 办 法 
之 前 ， 应 该 先 要 明确 性 能 具体 是 什么 。 一 个 指标 是 每 秒 转发 的 分 组 数 ， 另 一 个 是 每 秒 转发 的 
字 节 数 。 适 合 于 小 分 组 的 度量 指标 和 设计 方案 不 一 定 适用 于 大 分 组 。 特 别 地 ， 对 于 小 分 组 ， 
提高 目标 地 址 查询 的 速率 可 能 很 有 帮助 ， 但 对 于 大 分 组 可 能 帮助 就 很 小 。 

提高 性 能 最 直接 的 办 法 是 提高 网 络 处 理 器 的 时 钟 频 率 。 当 然 ， 由 于 内 存 周 期 和 其 他 因素 
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的 影响 ， 性 能 并 不 会 随 着 时 钟 频率 线性 提高 。 同 时 ， 更 快 的 时 钟 意味 着 会 产生 更 多 的 热量 。 

采用 更 多 的 PPE 和 并 行 策略 常常 是 最 好 的 办 法 ， 特 别 是 由 并 行 PPE 构成 的 组 织 结 构 更 
好 。 深 度 流 水 线 策 略 也 是 好 办 法 ， 但 只 有 在 处 理 分 组 的 任务 可 以 分 解 成 更 小 的 步骤 时 ， 才 能 
发 挥 作用 。 

另 一 项 技术 是 增加 专用 的 处 理 器 或 者 ASIC 来 处 理 特定 的 、 耗 时 的 操作 ， 这 些 操作 反复 
执行 并 且 硬 件 执行 要 快 于 软件 。 查 找 、 校 验 和 计算 以 及 密码 运算 都 是 这 样 的 操作 。 

增加 更 多 的 内 部 总 线 并 加 宽 已 有 的 总 线 ， 可 以 在 系统 内 更 快 地 传送 分 组 ， 从 而 提高 速率 。 
最 后 ， 用 SRAM 代替 SDRAM 通常 能 提高 性 能 ， 当 然 ， 价格 也 是 高 一 些 的 。 

当然 ,关于 网 络 处 理 器 还 有 很 多 可 以 探讨 的 内 容 。 请 参考 Freitas ( 2009 )、Lin 等 人 
(2010), Yamamoto 和 Nakao “A. (2011) 的 相关 工作 。 


8.2.2 图形 处 理 器 


协 处 理 器 应 用 的 另 一 个 领域 是 高 分 辩 率 图 形 处 理 ， 例 如 三 维 泻 染 。 普 通 的 CPU 并 不 很 适 
合 处 理 这 类 应 用 中 大 量 的 计算 。 出 于 这 个 原因 ， 当 前 大 多 数 的 PC 机 以 及 众多 未 来 的 处 理 器 
将 配备 图 形 处 理 单元 (GPU )， 它 们 可 以 分 担 大 部 分 的 处 理工 作 。 

NVIDIA Fermi GPU 

我 们 将 通过 下 面 的 例子 研究 这 个 日 益 重 要 的 领域 : NVIDIA Fermi GPU ， 这 是 一 种 应 用 于 
具有 不 同 速度 和 大 小 图 形 处 理 芯片 家 族 的 体系 结构 。Fermi GPU 的 体系 结构 如 图 8-17 所 示 ， 
它 由 16 个 流 式 多 处 理 器 (Streaming Multiprocessor, SM) 构成 ， 每 个 都 有 自己 私有 的 高 带 
宽 第 一 级 cache。 每 个 流 式 多 处 理 器 包含 32 个 CUDA (Compute Unified Device Architecture ) 
内 核 ， 这 样 整个 Fermi GPU 共有 512 个 CUDA。 每 个 CUDA 内 核 都 是 一 个 能 支持 单 精 度 整 
数 和 浮 点 数 计算 的 简单 处 理 器 。 具 有 32 个 CUDA 内 核 的 单个 SM 如 图 2-7 所 示 。16 个 SM 
共享 对 容量 为 768KB 统一 的 第 二 级 cache 的 访问 ， 这 个 共享 的 第 二 级 cache 与 一 个 多 端口 的 
DRAM 接口 相连 接 。 主 机 处 理 器 接口 通过 共享 的 DRAM 总 线 接口 提供 主机 系统 和 GPU 之 间 
的 通信 路 径 ， 典 型 的 是 通过 一 个 PCI-Express 接口 。 


流 式 多 处 理 器 CUDA 内 核 


-CERE 


到 DRAM 


到 主机 接口 














L2 cache 


aa 


8-17 Fermi GPU 体系 结构 
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Fermi 体系 结构 为 能 够 高 效 执行 图 形 、 视 频 、 图 像 处 理 代 码 而 设计 ， 这 些 代 码 多 是 一 
些 遍 历 很 多 像素 的 元 余 计算 。 流 式 多 处 理 器 具有 同时 执行 16 个 操作 的 能 力 ， 由 于 计算 的 宛 
余 性 ， 这 就 要 求 流 式 多 处 理 器 一 个 周期 内 执行 完 的 所 有 操作 都 应 该 是 一 样 的 。 这 种 处 理 方 
式 就 是 单 指令 多 数据 ( Single-Instruction Multiple Data, SIMD) 计算 ， 它 的 主要 优点 就 是 每 
个 SM 每 个 周期 只 要 获取 并 译 码 一 条 指令 即 可 。 仅 通过 共享 横 跨 SM 中 所 有 内 核 的 指令 处 理 
NVIDIA 就 能 够 让 512 个 内 核 布 满 到 到 单个 硅 片 。 如 果 程 序 员 能 够 驾驭 所 有 的 这 些 计算 资源 
(总 是 非常 大 并 且 不 确定 的 “如 果 ”)， 那 么 与 Core i7 或 者 OMAP4430 等 传统 的 标量 体系 结构 
相 比 ， 这 种 系统 的 计算 优势 还 是 很 明显 的 。 

SM 进行 SIMD 处 理 的 基本 要 求 是 对 运行 在 这 些 单元 之 上 的 代码 进行 约束 。 实 际 上 ， 每 
个 CUDA 内 核 必须 运行 相同 的 连续 代码 ， 这 样 才能 同时 完成 16 个 操作 。 为 了 减少 程序 员 的 
负担 ，NVIDIA 开发 了 CUDA 编程 语言 。CUDA 语言 规定 使 用 线程 实现 程序 并 行 性 。 线 程 被 
分 组 成 为 块 ， 然 后 按 块 分 配给 流 式 处 理 器 。 只 要 块 中 的 每 个 线程 正好 执行 相同 的 代码 序列 
(也 就 是 所 有 的 分 支 都 进行 同样 的 选择 )， 那 么 多 达 16 个 操作 也 就 能 同时 执行 (假设 有 16 个 
线程 准备 执行 )。 当 SM 中 的 线程 进行 不 同 的 分 支 选 择 时 ， 被 称 为 分 支 发 散 的 性 能 下 降 影 响 就 
会 发 生 ， 这 种 情况 下 就 必须 强制 具有 不 同 代 码 路 径 的 线程 在 SM 上 串 行 执行 。 分 支 发 散 降低 
了 并 行 性 从 而 减 慢 了 GPU 的 处 理 。 幸 运 的 是 在 图 形 图 像 处 理 中 有 大 量 的 操作 能 够 避免 分 支 发 
散 ， 这 样 就 能 获得 较 好 的 加 速 比 。 还 有 很 多 其 他 的 代码 也 被 证 明 能 够 从 图 形 处 理 器 这 种 SIMD 
体系 结构 中 获 益 ， 例 如 医学 成 像 、 机 器 证 明 、 财 务 预 警 以 及 图 形 分 析 等 。GPU 潜在 应 用 的 广 
泛 性 使 它 获 得 了 通用 图 形 处 理 单元 ( General-Purpose Graphics Processing Unit, GPGPU ) 这 样 
的 新 称谓 。 

如 果 没 有 足够 的 内 存 带宽 ， 具 有 512 个 CUDA 内 
核 的 Fermi GPU 很 可 能 出 现 停止 的 现象 。 为 了 提供 高 
带宽 ，Fermi GPU 实现 了 一 个 如 图 8-18 所 示 的 现代 内 
存 层次 。 每 个 SM 都 具有 一 个 专用 的 共享 内 存 和 一 个 
私有 的 第 一 级 数据 cache。 专 用 的 共享 内 存 由 CUDA 
内 核 直 接 寻 址 ， 这 样 就 为 单个 SM 内 线程 之 间 的 数据 
提供 了 快速 共享 。 第 一 级 cache 能 够 加 速 对 DRAM 数 
据 的 访问 。 为 了 适应 范围 更 广 的 程序 数据 的 使 用 ，SM 
可 以 进行 如 下 配置 : 16KB 的 共享 内 存 和 48KB 的 第 
一 级 cache 或 者 48KB 的 共享 内 存 和 16KB 的 第 一 级 
cache。 所 有 的 SM 共享 一 个 统一 的 768KB 的 第 二 级 
cache。 在 第 一 级 cache 缺失 的 情况 下 ， 第 二 级 cache 
能 够 提供 对 DRAM 数据 的 快速 访问 。 第 二 级 cache 还 
能 提供 SM 之 间 的 共享 ， 但 这 种 方式 的 共享 比 SM 内 
部 通过 SM 的 共享 内 存 方 式 进 行 共享 要 慢 得 多 。 第 二 
级 cache 之 后 就 是 DRAM， 它 用 来 保存 运行 在 Fermi GPU 上 的 程序 使 用 的 剩余 数据 、 影 像 和 
纹理 等 。 高 效 的 程序 无 论 如 何 都 应 当 尝 试 避免 对 DRAM 的 访问 ， 因 为 一 个 这 样 的 访问 要 花费 
数 百 个 周期 才能 完成 。 

对 于 一 个 悟性 较 高 的 程序 员 ，Fermi GPU 是 已 经 创建 的 具有 高 计算 能 力 的 平台 之 一 。 单 
个 具有 512 个 CUDA 内 核 ， 基 于 Fermi 架构 ， 运行 在 772MHz 的 GTX 580 GPU 在 250 瓦 功 





图 8-18 Fermi GPU 存储 层次 
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率 下 能 够 实现 每 秒 1.5 万 亿 次 浮 点 运算 。 如 果 考 虑 到 每 块 GTX 580 GPU 还 是 低 于 600 美元 的 
低 价 ， 那 这 个 结果 更 令 人 印象 深刻 。 再 来 从 历史 上 来 纵向 比较 一 下 , 在 20 世纪 90 年 代 ,， 世 
界 上 最 快 的 Cray-2 计算 机 只 有 每 秒 0.002 万 亿 次 浮 点 运算 能 力 ， 而 该 机 器 的 价格 是 3000 万 美 
元 (考虑 通胀 因素 调整 后 )， 它 被 安装 在 一 个 中 等 大 小 的 房间 里 并 且 使 用 液体 冷却 系统 ,冷却 
系统 的 能 耗 是 150 千瓦 。GTX 580 与 Cray-2 相 比 ， 计 算 能 力 高 出 750 倍 ， 价 格 是 其 1/50 000, 
能 耗 是 其 1600， 可 以 说 这 样 的 设计 相当 了 不 起 。 


8.2.3 加密 处 理 器 


协 处 理 器 广泛 使 用 的 第 三 个 领域 是 安全 领域 ， 特 别 是 网 络 安全 。 客 户 端 与 服务 器 建立 连 
接 后 ， 许 多 情况 下 它们 首先 要 互相 认证 。 然 后 它们 之 间 才 建立 一 个 安全 加 密 的 连接 ， 以 保证 
数据 通过 安全 通道 传输 ， 避 免 第 三 者 通过 传输 线路 进行 窃听 。 

为 了 达到 保密 目的 必须 使 用 加 密 算法 ， 而 加 密 的 运算 强度 是 很 大 的 。 密 码 系统 主要 有 
两 种 ， 一 种 是 对 称 密 钥 密码 系统 (symmetric key cryptography ) MAHB AA (public-key 
cryptography )。 前 者 基于 彻底 将 数据 位 混合 打 乱 ， 有 几 分 类 似 将 一 个 消息 扔 进 电动 搅拌 机 。 
后 者 基于 将 大 数 (例如 1024 位 的 数 ) 进行 乘法 和 指数 运算 ， 是 极其 耗 时 的 。 

数据 要 安全 地 传输 和 存储 就 需要 进行 大 量 的 加 密 和 解密 计算 ， 许 多 公司 已 经 生产 出 加 密 
协 处 理 器 ， 有 时 作为 PCI 总 线 的 插 接 卡 。 这 些 协 处 理 器 有 专用 的 硬件 ,能 以 比 普通 CPU 快 得 
多 的 速度 完成 必要 的 加 密 。 不 幸 的 是 ， 详 细 讨 论 加 密 协 处 理 器 如 何 工 作 ， 首 先 需 要 解释 加 密 
算法 本 身 ， 而 这 超出 了 本 书 的 范围 。 要 了 解 更 多 关于 加 密 协 处 理 器 的 信息 ， 请 参考 Gaspar 等 
(2010), Haghighizadeh 等 (2010 )、Shoufan 等 (2011 ) 的 相关 工作 。 


8.3 ”共享 内 存 的 多 处 理 器 


我 们 已 经 看 到 并 行 是 如 何 加 入 到 单个 的 芯片 中 以 及 通过 协 处 理 器 如 何 加 入 到 独立 的 系统 
中 。 接 下 来 我 们 来 分 析 一 下 如 何 使 用 多 个 成 熟 的 CPU 组 成 更 大 的 系统 。 由 多 个 CPU 构成 的 
系统 可 以 分 为 多 处 理 系统 和 多 计算 机 系统 两 类 。 在 理解 这 些 术语 的 概念 之 后 ， 我 们 先 研 究 一 
下 多 处 理 器 系统 ， 然 后 再 研究 多 计算 机 系统 。 


8.3.1 多 处 理 器 与 多 计算 机 


在 很 多 并 行 计 算 机 系统 中 ， 处 理 同 一 个 作业 不 同 部 分 的 CPU 必须 要 互相 通信 来 交换 信 
息 。 而 如 何 进行 通信 恰好 也 是 体系 结构 领域 争论 的 主题 。 多 处 理 器 系统 和 多 计算 机 系统 这 两 
种 截然 不 同 的 设计 已 经 被 提出 并 实现 。 这 两 种 设计 关键 的 区 别 就 在 于 它们 是 否 有 共享 的 内 存 ， 
这 种 区 别 影响 并 行 计算 机 系统 如 何 设计 、 构 建 和 编程 ， 同 时 也 影响 着 规模 和 价格 。 

1. 多 处 理 器 

所 有 的 CPU 都 共享 公共 内 存 的 并 行 计 算 机 称 为 多 处 理 器 (multiprocessor) 系统 ， 如 
图 8-19 所 示 。 运 行 在 多 处 理 器 上 的 所 有 进程 能 够 共享 映射 到 公共 内 存 的 单一 虚拟 地 址 空间 。 
任何 进程 都 能 通过 执行 LOAD 或 者 STORE 指令 来 读 或 者 写 一 个 内 存 字 ， 不 再 需要 其 他 的 处 
理 ， 硬 件 来 完成 剩 下 的 工作 。 通 过 一 个 进程 先 把 数据 写 入 内存 然 后 另 一 个 进程 再 读 出 的 方式 ， 
两 个 进程 之 间 可 以 进行 通信 。 

由 于 多 处 理 器 系统 中 ， 两 个 〈 或 者 多 个 ) 处 理 器 之 间 可 以 通过 读 写 内 存 进 行 通信 ， 因 此 
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多 处 理 器 系统 很 流行 。 这 是 一 种 程序 员 很 容易 理解 的 模型 而 且 可 以 用 于 解决 大 量 的 问题 。 可 
以 考虑 下 面 这 个 例子 ， 程 序 需要 监测 一 幅 BMP 图 像 并 列 出 其 中 所 有 的 对 象 。 如 图 8-19b 所 
示 ， 该 图 像 被 调 人 内 存 ，16 个 CPU 每 个 都 运行 一 个 单独 的 进程 ， 每 个 进程 负责 分 析 图 像 的 
1/16。 当 然 ， 每 个 进程 都 可 以 访问 整个 图 像 ， 这 一 点 很 重要 ， 因 为 某 些 对 象 可 能 会 占据 图 像 
的 多 个 部 分 。 如 果 某 个 进程 发 现 某 个 对 象 延 伸 到 了 自己 所 处 理 的 部 分 之 外 ， 那 么 它 可 以 通过 
读 相 邻 部 分 的 图 像 来 继续 自己 的 分 析 。 在 这 个 例子 中 ， 某 些 对 象 可 能 会 同时 被 多 个 进程 发 现 ， 
因此 需要 做 一 些 协 调 工作 来 判断 图 中 到 底 有 多 少 房 子 、 多 少 树 和 多 少 飞机 。 





a) 16 个 CPU 共 享 一 个 公共 b) 一 个 图 像 分 成 16 块 ， 
内 存 的 多 处 理 器 系统 每 块 都 由 不 同 的 CPU 分 析 
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因为 多 处 理 器 系统 中 所 有 的 CPU 见 到 的 都 是 同一 个 内 存 映像 ， 所 以 只 有 一 个 操作 系统 的 
拷贝 ， 从 而 也 就 只 有 一 个 页 面 映 射 表 和 进程 表 。 当 进程 阻塞 时 ， 它 的 CPU 保存 该 进程 的 状态 
到 操作 系统 表 中 ， 并 在 表 中 进行 搜索 找到 另外 的 进程 来 运行 。 这 种 单 系统 映像 正 是 多 处 理 器 
系统 区 别 于 多 计算 机 系统 的 关键 ， 在 多 计算 机 系统 中 每 台 计 算 机 都 有 操作 系统 自己 的 拷贝 。 

和 所 有 的 计算 机 系统 一 样 ， 多 处 理 器 系统 也 必须 有 磁盘 、 网 络 适配器 和 其 他 的 输入 / 输 
出 设备 。 在 某 些 多 处 理 器 系统 中 ， 只 有 特定 的 几 个 CPU 才能 访问 输入 /输出 设备 ， 因 此 也 
就 具有 特殊 的 输入 /输出 函数 。 在 其 他 一 些 系 统 中 ， 每 个 CPU 都 能 平等 地 访问 每 个 输入 / 
输出 设备 。 如 果 在 一 个 系统 中 ， 每 个 CPU 都 能 平等 地 访问 所 有 的 内 存 模块 和 输入 /输出 设 
备 ， 而 且 在 操作 系统 看 来 这 些 CPU 是 可 以 互 换 的 ， 那 么 这 种 系统 就 是 对 称 多 处 理 器 系统 
( Symmetric MultiProcessor, SMP )- 

2. 多 计算 机 

并 行 体系 结构 的 第 二 种 设计 方法 是 多 计算 机 ( multicomputer )。 在 多 计算 机 系统 中 ， 每 个 
CPU 都 有 自己 的 私有 内 存 ， 私 有 内 存 只 能 供 自 己 使 用 而 其 他 的 CPU 则 不 能 访问 。 这 种 体系 结 
构 有 时 也 称 为 分 布 式 内 存 系统 (Distributed Memory System, DMS )， 如 图 8-20a 所 示 。 多 计 
算 机 系统 区 别 于 多 处 理 器 系统 的 关键 一 点 是 多 计算 机 系统 中 的 每 个 CPU 都 有 自己 私有 的 本 地 
内 存 ， 私 有 内 存 可 以 通过 执行 LOAD 和 STORE 指令 进行 访问 ,但 是 其 他 的 CPU 则 不 能 通过 
执行 LOAD 和 STORE 指令 来 访问 这 些 私 有 内 存 。 也 就 是 说 ， 多 处 理 器 系统 所 有 的 CPU 共享 
一 个 单一 的 物理 地 址 空间 ， 而 多 计算 机 系统 中 每 个 CPU 都 有 自己 独立 的 物理 地 址 空间 。 

多 计算 机 系统 中 的 CPU 不 能 通过 读 写 共享 内 存 进 行 通信 ， 它 们 需要 另 一 种 不 同 的 通信 机 
制 。 在 多 计算 机 系统 中 , 通信 是 通过 使 用 互联 网 络 传递 消息 来 实现 的 。 多 计算 机 的 例子 包括 
IBM BlueGene/P, Red Storm 和 Google 集群 。 
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KT fet 
a) 16 个 CPU 的 多 计算 机 系统 ， 每 个 CPU 都 有 私有 内 在 b) 图 8-19 中 的 图 像 分 布 在 16 块 内 存 中 
图 8-20 


多 计算 机 系统 中 没有 硬件 实现 的 共享 内 存 ， 这 一 特点 也 在 很 大 程度 上 影响 了 其 软件 体系 
结构 。 多 处 理 器 系统 中 多 个 处 理 器 共享 一 个 单一 的 虚拟 地 址 空间 ， 所 有 的 处 理 器 都 可 以 通过 
执行 LOAD 和 STORE 指令 来 访问 所 有 的 内 存 ， 而 这 一 点 在 多 计算 机 系统 中 是 不 可 能 做 到 的 。 
举例 来 说 ， 如 果 图 8-19b 中 的 CPU 0 (最 上 面 一 排 左 手 第 一 个 CPU ) 发 现 它 分 析 的 图 像 中 的 
对 象 扩展 到 了 分 配给 CPU 1 的 图 像 中 ， 它 就 可 以 继续 读 内 存 来 访问 飞机 的 尾部 。 然 而 如 果 图 
8-20b 中 的 CPU 0 也 有 同样 的 发 现 ， 它 就 不 能 读 CPU 1 的 内 存 ， 在 如 何 获取 需要 的 数据 方面 ， 
这 两 种 体系 结构 之 间 存 在 着 很 大 的 不 同 。 

一 般 来 说 在 多 计算 机 系统 中 ， 如 果 CPU 发 现 某 个 其 他 的 CPU 有 它 需 要 的 数据 ， 它 就 给 
该 CPU 发 送 一 条 请 求 获得 数据 拷贝 的 消息 。 通 常 发 请 求 消息 的 CPU 将 阻塞 ( 也 就 是 等 待 )， 
直到 请 求 被 响应 。 当 消息 到 达 CPU 1 后 ，CPU 1 的 软件 将 分 析 该 消息 并 把 需要 的 数据 发 送 回 
来 。 当 响应 消息 到 达 CPU 0 后 ， 软 件 将 解除 阻塞 并 继续 执行 。 

在 多 计算 机 系统 中 ， 进 程 间 通信 通常 使 用 send 和 receive 这 样 的 软件 原 语 。 因 此 ， 多 计 
算 机 系统 中 的 软件 结构 就 和 多 处 理 器 系统 不 同 而 且 比 多 处 理 器 系统 复杂 得 多 。 这 也 意味 着 在 
多 计算 机 系统 中 ， 如 何 正确 地 划分 数据 并 把 数据 放 在 最 优 的 位 置 上 是 一 个 很 重要 的 问题 。 而 
在 多 处 理 器 系统 中 这 个 问题 就 不 那么 重要 了 ， 因 为 在 多 处 理 器 系统 中 数据 的 位 置 并 不 影响 系 
统 的 正确 性 和 编程 能 力 ， 虽 然 可 能 会 影响 性 能 。 简 而 言 之 ， 多 计算 机 系统 的 编程 比 多 处 理 器 
系统 的 编程 要 复杂 得 多 。 

那么 ， 为 什么 人 们 放 着 容易 编程 的 多 处 理 器 系统 不 用 ， 还 要 去 设计 多 计算 机 系统 呢 ? 答 
案 很 简单 ， 就 相同 数量 的 CPU 来 说 ， 大 规模 的 多 计算 机 系统 和 多 处 理 器 系统 相 比 结构 简单 而 
且 造 价 便宜 。 实 现 一 台 具 有 数 百 个 CPU 共享 内 存 的 计算 机 是 一 项 很 复杂 的 工作 ， 而 建造 一 个 
具有 10 000 个 或 者 更 多 的 CPU 的 多 计算 机 系统 则 是 一 项 很 简单 的 工作 。 本 章 后 面部 分 我 们 
会 讨论 超过 50 000 个 CPU 的 多 计算 机 实例 。 

因此 我 们 面 对 的 是 一 个 两 难 的 处 境 : 多 处 理 器 系统 实现 困难 但 是 编程 容易 ， 而 多 计算 机 
系统 实现 容易 而 编程 困难 。 由 于 看 到 了 这 一 点 ， 人 们 做 了 大 量 的 努力 来 建造 相对 容易 实现 而 
且 相 对 容易 编程 的 混合 系统 。 这 些 努 力 包括 使 用 各 种 方式 实现 的 共享 内 存 系统 ， 每 种 实现 方 
式 都 有 自己 的 优点 和 缺点 。 实 际 上 ， 目 前 并 行 体系 结构 领域 中 的 许多 研究 工作 都 致力 于 如 何 
结合 多 处 理 器 系统 和 多 计算 机 系统 的 优点 设计 出 混合 的 系统 。 最 终 的 目标 是 找到 具有 可 扩展 
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性 的 设计 ， 可 扩展 性 的 意思 是 说 随 着 CPU 数量 的 增多 ， 计 算 机 的 执行 能 力也 相应 提高 。 

设计 混合 系统 的 一 种 策略 是 基于 如 下 的 事实 : 现代 计算 机 系统 并 不 是 一 个 单一 的 系统 ， 
而 是 由 一 系列 层次 组 成 的 一 一 这 正 是 本 书 的 主题 。 这 一 思想 为 在 各 个 不 同 的 层次 上 实现 共享 
内 存 提 供 了 可 能 性 ， 如 图 8-21 所 示 。 图 8-21a 是 硬件 实现 的 真正 多 处 理 器 方式 的 共享 内 存 。 
在 这 种 设计 中 ， 只 有 操作 系统 的 一 个 拷贝 ， 操 作 系 统 只 有 一 组 内 存 分 配 表 。 当 进程 需要 更 多 
的 内 存 时 ， 它 就 向 操作 系统 发 出 系统 调用 ， 由 操作 系统 负责 查找 内 存 分 配 表 寻 找 空闲 页 面 ， 
并 把 空闲 页 面 映射 到 调用 者 的 地 址 空间 中 。 从 操作 系统 的 角度 来 看 ， 整 个 系统 只 有 单一 内 存 ， 
操作 系统 使 用 软件 的 方式 来 掌握 进程 使 用 的 页 面 。 后 面 我 们 将 会 看 到 ， 硬 件 共享 内 存 有 许多 
种 实现 方式 。 

计算 机 1 计算 机 2 计算 机 1 计算 机 2 计算 机 1 计算 机 2 
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共享 内 存 共享 内 存 共享 内 存 
a) 硬件 b) 操作 系统 o) 语言 级 运行 时 系统 


图 8-21 实现 共享 内 存 的 不 同 的 层次 


第 二 种 在 多 计算 机 硬件 上 实现 共享 内 存 的 方式 是 由 操作 系统 提供 全 系统 范围 的 分 页 的 共 
享 虚拟 地 址 空间 。 这 种 方式 称 为 分 布 式 共享 内 存 (Distributed Shared Memory, DSM ) (Li 和 
Hudak，1989 )， 在 DSM 中 ， 每 个 内 存 页 都 位 于 图 8-20a 中 的 某 个 内 存 中 。 每 全 计算机 都 具 
有 自己 的 虚拟 内 存 和 自己 的 页 表 。 当 CPU 在 不 是 自己 的 页 面 上 执行 LOAD 和 STORE 操作 时 ， 
操作 系统 就 会 产生 一 个 陷阱 。 操 作 系 统 会 找到 该 页 并 要 求 当 前 拥有 该 页 的 CPU 解除 该 页 的 映射 
并 把 该 页 通过 互联 网 络 传送 过 来 。 当 该 页 到 达 后 ， 将 被 映射 然后 重新 执行 出 错 的 指令 。 从 效果 [589 
上 来 说 ， 只 不 过 是 操作 系统 处 理 缺 页 错误 时 不 是 通过 磁盘 找到 所 缺 的 页 而 是 通过 远程 内 存 而 
已 。 而 从 用 户 的 角度 来 看 ， 计 算 机 就 像 拥 有 共享 内 存 一 样 。 本 章 的 后 面 我 们 还 将 讨论 DSM., 

第 三 种 方式 是 使 用 用 户 级 的 运行 时 系统 来 实现 共享 内 存 ， 一 般 是 面向 某 种 特定 语言 的 实 
现 。 在 这 种 方式 中 ， 由 编程 语言 提供 共享 内 存 特性 ， 具 体 实 现 是 由 编译 器 和 运行 时 系统 完成 
的 。 基 于 共享 元 组 空间 ( 包含 一 系列 域 的 数据 记录 ) AY Linda 模式 就 是 使 用 这 种 方式 共享 内 
存 的 例子 。 多 计算 机 系统 中 的 任何 一 台 计 算 机 上 的 任何 一 个 进程 都 可 以 从 共享 元 组 空间 中 读 
人 一 个 元 组 或 者 输出 一 个 元 组 到 共享 元 组 空间 中 。 由 于 对 元 组 空间 的 访问 是 完全 由 软件 控制 
的 (由 Linda 运行 时 系统 控制 )， 因 此 不 需要 任何 特殊 的 硬件 或 操作 系统 的 支持 。 

另 一 个 由 运行 时 系统 实现 的 面向 特定 语言 的 共享 内 存 的 例子 是 基于 共享 数据 对 象 的 Orca 
模式 。 在 Orca 中 ， 进 程 共享 类 的 对 象 而 不 是 元 组 ， 进 程 还 可 以 执行 某 个 对 象 的 方法 。 当 方法 
改变 了 对 象 的 内 部 状态 后 ， 由 运行 时 系统 来 保证 该 对 象 在 所 有 的 计算 机 上 的 所 有 的 拷贝 都 同 590) 
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步 改 变 。 另 外 ， 由 于 对 象 是 一 个 严格 的 软件 概念 ， 实 现 它 可 以 由 运行 时 系统 来 完成 ， 不 需要 
操作 系统 和 硬件 的 帮助 。 本 章 后 面 还 会 详细 讨论 了 Linda 和 Orca。 

3. 并 行 计 算 机 的 分 类 

下 面 我 们 将 回 到 本 章 的 主题 ， 继 续 讨 论 并 行 计 算 机 体系 结构 。 在 过 去 的 许多 年 中 ， 人 
们 已 经 设计 和 制造 出 了 许多 种 并 行 计算 机 ， 因 此 讨论 它们 该 如 何 分 类 也 是 一 个 很 自然 的 问 
题 。 许 多 研究 人 员 在 这 方面 做 了 尝试 并 得 到 了 不 同 的 结果 (Flynn,1972;Treleaven,1985 )。 
不 幸 的 是 ， 并 行 计算 机 的 Carolus Linnaeus 分 类 法 ”并 没有 出 现 。 较 常用 的 是 Flynn 的 分 类 方 
法 ， 即 使 这 种 分 类 法 也 是 非常 粗略 的 。 






Bi 6-22.28 Flynn 分 类 法 = -1 ”| 1 Ss eT 
Flynn 的 分 类 法 是 基于 指令 流 和 数 向 量 超级 计算 机 ， 阵 列 处 理 宙 
据 流 这 两 个 概念 的 。 指 令 流 对 应 于 程序 | 多 个 | 1 [isp | 月 前 还 没有 | 
计数 器 ,具有 个 cpu 的 系统 就 有 让 个 2 | 各 | MIMD ences, AN 
程序 计数 器 ， 相 应 地 也 就 有 n 个 指令 流 。 图 8-22 并 行 计算 机 的 Flynn 分 类 法 
数据 流 就 是 操作 数 的 集合 。 在 前 面 给 出 的 计算 温度 的 例子 中 就 有 多 个 数据 流 ， 每 个 传 感 
器 一 个 数据 流 。 


从 某 种 程度 上 说 ， 指 令 流 和 数据 流 是 互相 独立 的 ， 因 此 一 共存 在 4 种 组 合 ， 如 图 8-22 所 
示 。SISD 就 是 传统 的 串 行 的 汉 : 庄 依 曼 机 。 它 只 有 一 个 指令 流 ， 一 个 数据 流 ， 一 个 时 刻 只 能 
做 一 件 事情 。SIMD 计算 机 有 一 个 控制 单元 一 次 发 射 一 条 指令 ， 同时 有 多 个 ALU 在 不 同 的 
数据 集合 上 同时 执行 这 条 指令 。ILLIAC IV (图 2-7 ) 就 是 SIMD 计算 机 的 原型 。 虽 然 主 流 
SIMD 计算 机 日 益 稀 少 ， 但 是 传统 的 计算 机 有 时 为 了 处 理 音 频 视 频数 据 而 加 入 一 些 SIMD 指 
令 。Core i7 的 SSE 指令 就 是 SIMD 指令 。 不 过 ，SIMD 的 一 些 思想 还 是 在 一 个 新 的 领域 起 到 
了 重要 的 作用 ， 这 个 领域 就 是 流 处 理 器 。 用 于 多 媒体 处 理 而 进行 特殊 设计 的 机 器 在 将 来 也 许 
会 越 来 越 重 要 (Kapasi 等 ，2003 )。 

MISD 计算 机 是 一 种 比较 奇怪 的 组 合 ， 多 条 指令 同时 在 一 份 数据 上 进行 操作 。 目 前 还 不 
清楚 是 否 真 的 存在 这 样 的 计算 机 ， 虽 然 有 些 人 认为 流水 线 计算 机 属于 MISD 类 型 。 

最 后 一 种 是 MIMD, ， 这 是 一 种 同时 有 多 个 CPU 执行 不 同 的 操作 的 计算 机 系统 。 大 多 数 现 
代 的 并 行 计算 机 都 属于 这 一 类 。 多 处 理 咒 系统 和 多 计算 机 系统 都 是 MIMD 型 的 计算 机 。 

Flynn 的 分 类 就 分 到 这 里 ， 但 是 我 们 可 以 继续 把 它 扩 展 成 图 8-23。SIMD 又 可 以 分 成 两 个 
子 类 。 第 一 类 是 用 于 数值 计算 的 超级 计算 机 和 其 他 一 些 向 量 计算 机 ， 它 们 可 以 在 一 个 向 量 的 
每 个 元 素 上 执行 相同 的 操作 。 第 二 类 是 并 行 类 型 的 计算 机 ， 如 ILLIAC IV, 在 这 种 类 型 的 机 
器 中 ， 一 个 控制 单元 把 指令 广播 给 多 个 独立 的 ALU。 

在 图 8-23 的 分 类 中 ， 我 们 把 MIMD 分 成 了 多 处 理 器 系统 (共享 内 存 的 计算 机 ) MBit 
算 机 系统 ( 消息 传递 的 计算 机 )。 根据 共享 内 存 的 实现 方式 可 以 把 多 处 理 器 系统 分 成 三 类 ， 
分 别 是 一 致 性 内 存 访 问 计 算 机 (Uniform Memory Access, UMA )、 非 一 致 性 内 存 访问 计算 
机 (NonUniform Memory Access, NUMA ) 和 基于 cache 的 内 存 访问 计算 机 ( Cache Only 
Memory Access, COMA )。 之 所 以 这 样 分 类 是 因为 在 大 多 数 多 处 理 器 系统 中 内 存 都 被 分 成 了 
多 个 不 同 的 模块 。UMA 计算 机 的 特点 是 CPU 访问 所 有 的 内 存 模块 的 时 间 都 相同 。 换 名 话说 ， 
读 取 每 个 内 存 字 的 时 间 是 相等 的 。 如 果 在 实现 中 有 困难 ， 就 把 速度 快 的 内 存 访 问 速度 降低 以 


© Carolus Linnaeus (1707—1778 ) 是 瑞典 生物 学 家 ， 他 设计 的 系统 现在 用 于 对 所 有 植物 和 动物 进行 界 、 门 、 
纲 、 目 、 科 、 属 、 种 等 的 分 类 。 
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保证 和 最 慢 的 相等 ， 这 样 程序 员 就 不 会 感觉 到 速度 的 差别 了 。 这 就 是 一 致 性 的 含义 。 这 种 一 
致 性 可 以 保证 系统 的 性 能 可 以 预测 ， 也 有 利于 程序 员 编 写 高 效率 的 代码 。 


| se | | sm | | ve | [san | 
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共享 内 存 消息 传递 
图 8-23 并 行 计算 机 的 分 类 


和 UMA 相反 ,在 NUMA 多 处 理 器 系统 中 就 没有 这 种 一 致 性 。 在 NUMA 系统 中 ,靠近 
CPU 的 内 存 模块 的 访问 速度 比 其 他 的 内 存 模块 快 得 多 。 这 样 实现 也 是 出 于 提高 性 能 的 考虑 ， 
它 主要 关系 到 代码 和 数据 的 位 置 。COMA 计算 机 也 是 不 一 致 的 ， 但 是 这 两 种 不 一 致 是 有 区 别 
的 。 后 面 我 们 会 详细 讨论 这 些 类 型 和 它们 的 子 类 型 。 

MIMD 计算 机 的 另 一 个 大 类 是 多 计算 机 系统 ， 多 计算 机 系统 和 多 处 理 器 系统 不 一 样 ， 它 
们 在 体系 结构 层 没有 共享 的 第 一 级 内 存 。 换 名 话说 ， 在 多 计算 机 系统 中 ，CPU 上 运行 的 操 
作 系 统 不 能 通过 LOAD 指令 访问 其 他 CPU 的 内 存 。 它 只 能 通过 显 式 发 送 消息 并 等 待 响应 的 
方式 和 其 他 的 CPU 通信 。 操 作 系统 具有 通过 执行 LOAD 指令 读 取 远程 内 存 字 的 能 力 ， 这 是 
多 处 理 器 系统 不 同 于 多 计算 机 系统 的 最 重要 的 特征 。 正 如 我 们 前 面 提 到 的 ， 在 多 计算 机 系统 
中 ， 用 户 程 序 也 可 以 具有 使 用 LOAD 和 STORE 指令 访问 远程 内 存 的 能 力 ， 但 是 这 是 由 操作 
系统 实现 的 ， 并 不 是 底层 硬件 直接 支持 的 。 这 种 差别 虽然 很 细微 ， 但 是 却 很 重要 。 由 于 多 计 
算 机 系统 不 能 直接 访问 远程 内 存 ， 它 们 有 时 候 也 被 称 为 非 远程 内 存 访问 计算 机 (No Remote 
Memory Access, NORMA )。 

多 计算 机 系统 又 可 以 粗略 地 分 成 两 大 类 。 第 一 类 是 大 规模 并 行 处 理 机 (Massively Parallel 
Processor，MPP )， 这 是 一 种 价格 昂贵 的 超级 计算 机 ， 它 是 由 许多 CPU 通过 高 速 互联 网 络 紧 
密 耦 合 在 一 起 组 成 的 。IBM SP/3 都 是 著名 的 商用 MPP 计算 机 。 i 

第 二 类 多 计算 机 系统 是 由 普通 的 PC 机 、 工 作 站 或 者 服务 器 组 成 的 ， 它 们 可 能 被 放置 在 
一 个 大 的 机 架 上 ， 相 互 之 间 通 过 现成 的 商用 网 络 连接 起 来 。 从 逻辑 上 来 说 ， 这 种 系统 和 MPP 
计算 机 并 没有 太 大 的 区 别 ， 但 是 大 型 的 MPP 超级 计算 机 往往 价值 数 百 万 美元 而 这 种 由 PC 组 
成 的 网 络 的 价格 只 是 MPP 的 一 小 部 分 。 这 种 自制 的 多 计算 机 系统 有 各 种 不 同 的 名 称 ， 比 较 
常用 的 有 工作 站 网 络 ( Network of Workstation, NOW )、 工 作 站 集群 ( Cluster of Workstation, 
COW ), 或 者 有 时 干脆 就 叫做 集群 (cluster )。 
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8.3.2 内存 语 义 


虽然 在 所 有 的 多 处 理 器 系统 中 ， 所 有 的 CPU 共享 一 个 单一 的 地 址 空间 ， 但 是 地 址 空间 

通常 是 由 许多 的 内 存 模块 组 成 的 ， 每 个 都 是 物理 内 存 的 一 部 分 。CPU 和 内 存 通常 通过 复杂 的 
593) 互联 网 络 连接 起 来 ， 这 将 在 8.4.1 中 进行 讨论 。 在 某 一 时 刻 ， 某 几 个 CPU 试图 读 一 个 内 存 字 ， 

与 此 同时 ， 另 外 几 个 CPU 试图 写 这 个 内 存 字 。 某 些 请 求 消 息 在 收 到 时 可 能 和 发 送 时 的 次 序 不 
一 致 。 除 此 之 外 ， 某 些 内 存 块 可 能 还 具有 多 个 拷贝 ( 比如 ， 在 cache 中 )， 因 此 结果 很 容易 出 
现 混乱 ， 除 非 采 取 严 格 的 措施 来 防止 混乱 。 本 节 我 们 将 讨论 共享 内 存 的 真实 含义 并 看 一 看 内 
存 是 如 何在 这 种 复杂 的 环境 中 工作 的 。 

有 一 种 观点 把 内 存 语 义 看 成 是 软件 和 内 存 硬件 之 间 的 一 份 合同 (Adve 和 Hill, 1990), 40 
果 软 件 同意 忍受 某 些 条 款 ， 那 么 内 存 将 保证 满足 这 些 条 款 。 那 么 需要 讨论 的 是 这 些 条 款 到 底 有 
哪些 。 这 些 条 款 就 是 一 致 性 模型 ( consistency model )， 目 前 已 经 提出 并 实现 了 多 种 一 致 性 模型 。 

为 了 让 你 理解 问题 到 底 在 哪里 ， 让 我 们 看 一 个 例子 。 假 定 CPU 0 把 1 SAT AHS 
中 ， 过 了 一 会 ，CPU 1 把 2 写 人 同一 个 内 存 字 。 然 后 CPU 2 读 这 个 字 ， 发 现 结果 是 1。 那 么 
你 是 否 应 该 把 这 人 台 计 算 机 送 到 维修 部 去 修理 呢 ? 不 要 着 急 ， 先 看 一 看 你 的 计算 机 的 内 存 语义 
(也 就 是 刚才 说 的 那些 条 款 )。 

1. 严格 一 致 性 

严格 一 致 性 ( strict consistency ) 模型 是 最 简单 的 一 致 性 模型 。 使 用 这 种 模型 时 ， 对 位 置 x 执 
行 的 任何 读 操作 都 返回 最 近 一 次 写 和 人 的 x 值 。 程 序 员 喜 欢 这 种 模型 ， 但 是 这 种 模型 不 可 能 高 效 
率 地 实现 ， 你 只 能 采用 一 个 单一 的 先 来 先 服务 的 内 存 模块 来 实现 共享 内 存 ， 不 能 使 用 cache AE 
何其 他 的 数据 拷贝 技术 。 很 不 幸 ， 这 样 一 种 实现 会 把 内 存 变 成 可 怕 的 瓶颈 因而 是 不 可 接受 的 。 

2. 顺序 一 致 性 

下 一 种 最 好 的 模型 是 顺序 一 致 性 (sequential consistency ) 模型 (Lamport，1979 )。 顺序 
一 致 性 模型 的 思想 是 当 系 统 中 有 多 个 读 请 求 和 多 个 写 请 求 时 ， 由 硬件 对 这 些 请 求 排列 一 个 次 
序 (该 次 序 并 不 是 确定 的 ), 但 所 有 CPU 都 将 看 到 相同 的 顺序 。 

为 了 理解 顺序 一 致 性 的 含义 ， 请 看 下 面 的 例子 。 假 定 CPU 1 把 100 写 和 人 了 字 x 中 ,1 纳 
秒 之 后 CPU 2 向 字 x 中 写 人 200。 现 在 假定 在 第 二 次 写 操作 发 出 (不 一 定 完 成 ) 后 1 纳 秒 ， 
其 他 两 个 CPU 一 -CPU 3 和 CPU 4 快速 地 从 内 存 中 读 两 次 x， 如 图 8-24a 所 示 。 这 6 个 事件 
(两 次 写 和 四 次 读 ) 的 三 种 可 能 的 次 序 分 别 如 图 8-24b ~ d 所 示 。 在 图 8-24b 中 ，CPU 3 读 到 
的 是 (200，200 )，CPU 4 读 到 的 也 是 (200，200 )。 在 图 8-24c 中 ， 它 们 分 别 读 到 的 是 (100, 
200) 和 (200，200 )。 在 图 8-24d 中 ， 它 们 分 别 读 到 了 (100，100) 和 (200，100) 所 有 这 

[594] 些 结果 都 是 正常 的 ， 还 有 其 他 一 些 可 能 的 结果 没有 列 出 来 。 注 意 没 有 唯一 “正确 ”的 值 。 


W100 W100 W200 





W200 R3 = 100 R4 = 200 
R3 = 200 W200 W100 

R3 = 200 R4 = 200 R3 = 100 
R4 = 200 R3 = 200 R4 = 100 


R4 = 200 R4 = 200 R3 = 100 
a) b) c) d) 
图 8-24 a) 两 个 CPU 写 入 ， 另 外 两 个 CPU 读 取 同一 个 内 存 字 ; 
b) ~ d) 两 次 写 操作 和 四 次 读 操 作 的 三 种 可 能 的 方式 
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顺序 一 致 性 的 关键 就 在 于 ， 无 论 如 何 ， 顺 序 一 致 性 内 存 不 会 让 CPU 3 读 到 (100，200 ) 
而 CPU 4 得 到 (200，100 )。 如 果 发 生 了 这 种 情况 就 意味 着 在 CPU 3 看 来 ，CPU 15 A 100 
的 操作 是 在 CPU 25 A 200 的 操作 之 后 完成 的 ， 这 没有 什么 问题 。 同 时 还 意味 着 在 CPU 4 看 
Æ, CPU 1 BA 200 的 操作 是 在 CPU 1 写 入 100 的 操作 之 前 完成 的 。 就 这 一 结果 本 身 来 看 ， 
也 是 可 能 的 。 问 题 在 于 顺序 一 致 性 保证 了 对 所 有 的 CPU 来 说 ， 写 操作 必须 具有 全 局 的 单一 的 
次 序 。 如 果 CPU 3 观察 到 100 是 先 写 和 内存 的 ， 那么 CPU 4 也 应 该 看 到 同样 的 次 序 。 

虽然 顺序 一 致 性 没有 严格 一 致 性 那么 严格 ,但 它 仍 然 是 很 有 用 的 。 从 效果 上 说 ， 顺 序 一 
致 性 的 含义 是 当 多 个 事件 同时 发 生 时 ， 由 于 时 序 和 运气 的 因素 ， 可 能 会 有 多 个 发 生 次 序 ， 但 
是 所 有 的 处 理 器 都 能 够 观察 到 相同 的 次 序 。 虽 然 顺 序 一 致 性 的 含义 很 显然 ， 但 是 下 面 我 们 将 
讨论 的 一 致 性 模型 连 顺序 一 致 性 也 不 能 保证 。 

3. 处 理 器 一 致 性 

处 理 器 一 致 性 (processor consistency ) 模型 ( Goodman,1989 ) 是 一 种 比较 松散 ， 但 却 很 
容易 在 大 的 多 处 理 器 系统 中 实现 的 一 致 性 模型 。 它 具有 两 个 特点 : l 

1) 任何 CPU 发 出 的 写 操作 在 所 有 的 CPU 看 来 都 必须 和 操作 发 出 的 顺序 一 致 。 

2) 对 每 个 内 存 字 来 说 ， 所 有 的 CPU 看 到 的 都 是 相同 次 序 的 写 操作 。 

这 两 个 特点 都 很 重要 。 第 一 点 说 的 是 如 果 CPU 1 向 某 个 内 存 位 置 发 出 了 写 人 人 1A、1B 和 
1C 的 操作 ， 那 么 所 有 其 他 的 处 理 器 都 必须 看 到 同样 的 次 序 。 换 句 话 说 ， 如 果 一 个 处 理 器 执行 
一 个 循环 操作 来 观察 1A、1B 和 1C 的 写 人 顺序 的 话 ， 那 么 肯定 不 会 出 现 先 读 到 1B 后 读 到 1A 
的 情况 。 第 二 个 特点 保证 了 每 个 内 存 字 在 多 个 CPU 对 其 进行 写 人 操作 的 情况 下 能 有 一 个 最 后 
的 确定 的 值 。 所 有 的 人 都 必须 达成 协议 ， 谁 最 后 一 个 走 。 

虽然 有 这 么 多 限制 ， 设 计 者 在 设计 时 仍然 有 很 大 的 灵活 性 。 考 虑 一 下 在 刚才 CPU 1 发 
出 三 个 写 操作 的 同时 CPU 2 发 出 写 2A、2B 和 2C 的 操作 会 发 生 什么 情况 。 其 他 正在 读 内 存 
的 CPU 可 能 会 看 到 这 6 个 操作 的 某 种 次 序 ， 比 如 1A、1B、2A、2B、1C、2C 或 者 2A、1A、 
2B、2C、1B、1C 或 者 其 他 的 次 序 。 处 理 器 一 致 性 并 不 保证 所 有 的 处 理 器 都 看 到 相同 的 次 序 (这 
一 点 和 顺序 一 致 性 不 同 ， 顺 序 一 致 性 可 以 保证 这 一 点 )。 这 种 某 些 CPU 看 到 第 一 种 次 序 ， 某 
些 CPU 看 到 第 二 种 次 序 ， 而 其 他 的 CPU 看 到 其 他 一 些 次 序 的 情况 在 处 理 器 一 致 性 中 是 可 以 
出 现 的 。 处 理 器 一 致 性 保证 的 是 没有 一 个 CPU 会 看 到 1B 在 1A 之 前 发 生 。 每 个 CPU 做 写 操 
作 的 顺序 在 所 有 的 CPU 看 来 都 应 该 是 一 样 的 。 

不 足 为 奇 ， 有 些 作者 使 用 不 同 的 方式 定义 处 理 器 一 致 性 ,在 他 们 的 定义 中 不 需要 满足 第 
二 个 特点 。 

4. 弱 一 致 性 

下 一 个 模型 是 弱 一 致 性 ( weak consistency) 模型 ， 它 甚至 不 能 保证 单个 CPU 的 写 人 操 
作 具 有 相同 的 观察 次 序 (Dubois 等 ,1986 )。 在 弱 一 致 性 内 存 中 ,一 个 CPU 可 能 看 到 1A 在 
1B 之 前 发 生 ， 而 另 一 个 CPU 可 能 看 到 1A RAF 1B 之 后 。 这 种 情况 的 确 太 混乱 了 ; 为 了 给 
这 种 混乱 情况 增加 一 些 次 序 ， 弱 一 致 性 内 存 使 用 了 同步 变量 或 同步 操作 。 当 执行 同步 时 ， 所 
有 正在 进行 的 写 操作 都 将 完成 而 且 在 这 些 写 操 作 和 同步 操作 本 身 没 有 完成 之 前 不 执行 任何 新 
的 写 操作 。 从 效果 上 来 说 ， 同 步 操 作 相 当 于 清空 流水 线 并 使 内 存 进入 没有 任何 未 完成 的 操作 
的 稳定 状态 。 同 步 操 作 本 身 是 具有 顺序 一 致 性 的 ， 也 就 是 说 ， 当 多 个 CPU 同时 发 出 同步 操作 
时 ,一 旦 选 定 了 某 种 次 序 ， 所 有 的 CPU 都 将 看 到 相同 的 次 序 。 

在 弱 一 致 性 中 ， 时 间 被 顺序 一 致 的 同步 操作 精心 划分 成 了 时 间 片 ， 如 图 8-25 所 示 。1A 
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Al 1B 的 相对 次 序 并 不 能 得 到 保证 ,不同 的 CPU 可 能 看 到 两 个 不 同 次 序 的 写 操作 ， 也 就 是 说 
一 个 CPU 可 能 看 到 先是 1A 然后 是 1B ， 而 另 一 个 CPU 可 能 看 到 先是 .1B 然后 是 1A。 这 种 情 
况 是 允许 的 。 但 是 所 有 的 CPU 都 会 看 到 1B 在 1C 的 前 面 ， 因 为 第 一 个 同步 操作 使 1A、1B 和 
2A 完成 之 后 1C、2B、3A 和 3B 才 开 始 执行 。 这 样 ， 通 过 执行 同步 操作 ， 软 件 就 为 事件 增加 
了 一 定 的 发 生 次 序 ， 但 是 这 种 操作 是 需要 花费 一 定 代价 的 ， 因 为 清空 内 存 流水 线 需 要 一 定 的 
时 间 。 如 果 经 常 执行 就 会 是 一 个 问题 。 


ee i Ye 
CPU A 1A 1B 1C ID 1E 1F 
CPU B 2A 2B 2C 2D 
CPU C 3A 3B 3C 
A 
同步 点 
时 间 





图 8-25 “ 弱 一 致 性 内 存 使 用 同步 操作 把 时 间 分 成 时 间 片 


5. 释放 一 致 性 

弱 一 致 性 的 问题 在 于 它 的 效率 很 低 ， 因 为 它 在 完成 正在 执行 的 内 存 操作 时 需要 让 所 有 
新 的 操作 等 待 。 释 放 一 致 性 (release consistency ) 通过 引入 临界 区 的 概念 解决 了 这 一 问题 
( Gharachorloo 等 ，1990 )。 该 模型 的 思想 是 当 一 个 进程 退出 临界 区 时 并 不 要 求 所 有 的 写 操 作 
立刻 完成 。 需 要 保证 的 只 是 在 其 他 的 进程 进入 临界 区 之 前 完成 所 有 的 写 操作 。 

在 释放 一 致 性 模型 中 ， 弱 一 致 性 模型 中 使 用 的 同步 操作 被 划分 成 了 两 个 不 同 的 操作 。 为 
了 读 写 一 个 共享 的 数据 变量 ，CPU ( 也 就 是 CPU 上 运行 的 软件 ) 必须 首先 在 同步 变量 上 执行 
acquire 操作 来 获得 对 共享 变量 的 排他 的 使 用 权 。 然 后 CPU 就 可 以 随意 地 使 用 这 些 共享 变量 
了 ， 可 以 任意 地 对 它们 进行 读 写 。 当 操作 完成 后 ，CPU 在 共享 变量 上 执行 release 操作 以 表示 
操作 完成 。release 并 不 强迫 正在 执行 的 写 操作 立刻 完成 ， 但 是 在 所 有 在 它 之 前 发 出 的 写 操作 
没有 完成 之 前 ，release 本 身 不 能 结束 。 而 且 ， 并 不 禁止 发 出 新 的 内 存 操作 。 

当下 一 条 acquire 操作 发 生 时 ， 必 须 检 查 以 前 的 release 操作 是 否 都 已 经 完成 。 如 果 没 有 
TR, acquire 操作 必须 等 待 直到 它们 全 部 完成 ( release 操作 的 完成 也 就 意味 着 它 之 前 的 写 操 
作 都 已 经 完成 )。 使 用 这 种 方式 ， 如 果 下 一 个 acquire 操作 和 上 一 个 release 操作 之 间 的 时 间 间 
隔 足 够 长 ， 那 么 它 就 可 以 直接 进入 临界 区 不 用 浪费 任何 等 待 时 间 。 如 果 acquire 操作 紧 接 着 
release 操作 发 生 ，acquire ( 和 它 后 面 的 所 有 的 指令 ) 都 将 等 到 所 有 的 release 操作 完成 ， 这 样 
可 以 保证 临界 区 中 的 变量 被 正确 修改 。 这 种 策略 比 弱 一 致 性 稍微 复杂 一 些 , 但 它 具有 的 一 个 
显著 优点 是 不 需要 一 致 性 维护 时 通常 用 到 的 延 时 指令 。 

内 存 一 致 性 的 讨论 并 没有 结束 ， 许 多 研究 人 员 还 在 不 断 地 提出 新 的 模型 (Naeem 等 ， 
2011; Sorin 等 ，2011; Tu 等 ，2010 )。 


8.3.3 UMA 对 称 多 处 理 器 体系 结构 
最 简单 的 多 处 理 器 系统 是 基于 单条 总 线 的 ， 如 图 8-26a 所 示 。 两 个 或 者 更 多 的 CPU 以 及 
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一 个 或 者 更 多 的 内 存 模块 都 使 用 同一 条 总 线 通信 。 当 某 个 CPU 想 读 取 内 存 时 ， 它 首先 检查 总 
线 是 否 正在 被 使 用 。 如 果 总 线 是 空闲 的 ，CPU 就 把 内 存 地址 放 在 总 线 上 ， 当 然 还 需要 一 些 控 
制 信号 ， 然 后 等 待 内 存 把 它 需 要 的 内 存 字 放 在 总 线 上 。 


共享 内 存 MAE ssf ua ies 








a) 不 使 用 cache b) 使 用 cache c) 使 用 cache 和 私有 内 存 
图 8-26 三 种 基于 总 线 的 多 处 理 器 系统 


如 果 CPU 想 读 写 内 存 时 发 现 总 线 正 在 被 使 用 ， 那 它 只 有 等 待 总 线 空闲 。 这 就 是 这 种 设计 
的 主要 问题 。 使 用 两 三 个 CPU 时 ， 对 总 线 的 争 用 还 是 可 以 管理 的 ; 如 果 使 用 32 个 或 者 64 个 
CPU， 则 对 总 线 的 争 用 就 是 无 法 忍受 的 。 系 统 的 能 力 将 受到 总 线 带宽 的 限制 ， 大 多 数 CPU 在 
大 多 数 时 间 内 都 处 于 等 待 状 态 。 

解决 这 一 问题 的 一 种 方案 是 为 每 个 CPU 都 增加 cache， 如 图 8-26b 所 示 。cache 可 以 在 
CPU 芯片 内 部 ，CPU 芯片 的 旁边 和 处 理 器 板 上 ， 也 可 以 把 这 三 者 结合 起 来 使 用 。 由 于 许多 读 
操作 都 可 以 从 cache 中 获得 数据 ， 总 线 的 流量 将 会 少 得 多 ， 而 且 系 统 也 可 以 支持 更 多 的 CPU。 
这 里 使 用 cache 能 解决 大 问题 。 然 而 ， 一 会 我 们 将 看 到 ， 维 持 cache 一 致 性 是 十 分 重要 的 。 

另 一 种 可 行 的 方案 如 图 8-26c 所 示 ， 在 这 种 方案 中 ， 每 个 CPU 不 仅 有 自己 的 cache mH. 
有 自己 私有 的 内 存 ， 私 有 内 存 是 通过 私有 总 线 进行 访问 的 。 为 了 能 够 最 佳 地 利用 这 种 体系 结 
构 ， 编 译 器 应 该 把 所 有 的 程序 正文 、 字 符 串 、 常 量 和 其 他 的 只 读数 据 、 栈 和 局 部 变量 等 放 在 
自己 的 私有 内 存 中 。 共 享 内 存 只 用 于 写 共 享 变量 。 在 大 多 数 情况 下 ， 这 种 精心 考虑 的 数据 分 
布 可 以 极 大 地 减少 总 线 流量 ， 但 是 它 需 要 编译 器 的 主动 配合 。 

1. 监听 型 cache 

刚才 我 们 关于 性 能 的 讨论 当然 是 正确 的 ， 但 是 我 们 忽略 了 一 个 基本 的 问题 。 假 定 内 存 具 
有 顺序 一 致 性 。 当 CPU 1 的 cache 中 有 一 块 数据 ， 而 CPU 2 同样 也 想 读 这 个 数据 时 会 发 生 什 
么 情况 呢 ? 在 没有 任何 特殊 规定 的 情况 下 ，CPU 2 的 cache 中 也 将 获得 该 数据 的 拷贝 。 从 原 
理 上 来 说 ， 同 一 块 数据 缓存 两 次 也 是 可 以 接受 的 。 现 在 假定 CPU 1 修改 了 这 一 块 数据 ， 而 就 
在 修改 刚刚 完成 之 后 ，CPU 2 读 取 了 它 自 己 的 cache 中 的 这 块 数据 。 显 然 ，CPU 2 读 到 的 是 过 
时 的 数据 ， 这 违背 了 软件 和 内 存 之 间 的 合同 。CPU 2 上 运行 的 程序 肯定 相当 不 满 。 

文献 中 把 这 一 严重 的 问题 称 为 cache 一 致 性 问题 ( cache coherence 或 者 cache consistency )。 
如 果 不 想 办 法 解决 这 个 问题 ，cache 就 不 能 使 用 ， 基 于 总 线 的 多 处 理 器 系统 也 就 只 能 使 用 两 
三 个 CPU 了 。 认 识 到 问题 的 重要 性 后 ， 人 们 提出 了 多 种 解决 方案 ( 例如 Goodman, 1983 ; 
Papamarcos 和 Patel，1984 )。 虽 然 这 些 称 为 cache 一 致 性 协议 (cache coherence protocol ) 的 
cache 算法 在 细节 上 并 不 相同 ， 但 是 它们 的 目的 都 是 为 了 防止 在 两 个 或 者 更 多 的 cache 中 出 现 
同一 块 数据 的 不 同 版 本 。 

在 所 有 这 些 方案 中 ，cache 控制 器 都 被 专门 设计 成 可 以 监听 总 线 ， 掌握 所 有 其 他 CPU 和 
cache 对 总 线 的 请 求 ， 并 在 某 些 特定 的 情况 下 采取 行动 。 这 种 cache 被 称 为 监听 型 cache， 因 
为 它们 可 以 监听 总 线 。 由 cache, CPU 和 内 存 共同 实现 的 防止 多 个 cache 中 出 现 相同 数据 的 不 
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同 版 本 的 规则 集合 就 组 成 了 cache 一 致 性 协议 。cache 读 写 和 保存 的 单元 称 为 cache 块 ， 一 般 
是 32 个 字 节 或 者 64 个 字 节 。 

最 简单 的 cache 一 致 性 协议 是 写 直达 协议 〈 write through )。 通 过 区 分 图 8-27 中 列 出 的 4 
种 情况 可 以 很 容易 地 理解 该 协议 ， 当 
CPU 要 读 的 字 不 在 cache 中 时 (也 就 是 [eee | 从 内 存 取 数 据 | | 
发 生 了 读 缺 失 )，cache 控制 器 就 把 包括 | 读 命中 | 使 用 木 地 cache 的 数据 | | 


该 字 的 一 块 数据 读 人 cache。 这 块 数据 是 | BOR | 修改 内 存 中 的 数据 | OO OO 
由 内 存 提供 的 ， 此 协议 中 内 存 的 数据 总 







是 最 新 的 。 接 下 来 的 读 操 作 就 可 以 直接 PEPSI SEDA he eee 
从 cache 中 获得 数据 ( 也 就 是 读 命 中 )。 空白 项 表示 不 采取 任何 操作 


当 发 生 写 缺 失 时 ， 把 被 修改 的 字 写 回 内 存 ， 但 是 并 不 把 包括 该 字 的 块 调和 人 cache。 当 发 生 
写 命 中 时 ， 修 改 cache 还 要 把 该 字 直 接 写 和 人 内存。 该 协议 的 要 点 就 在 于 所 有 的 写 操作 都 直接 
写 和 内存 以 保证 内 存 中 的 数据 总 是 最 新 的 。 

现在 我 们 从 监听 者 的 角度 再 来 看 一 看 这 些 操作 ， 如 图 8-27 右边 一 列 所 示 。 我 们 让 cache 
来 执行 这 些 动 作 ， 共 有 两 个 cache，cache 1 和 监听 的 cache 2. “4 cache 1 读 缺 失 时 ， 它 在 总 线 
上 发 送 一 个 从 内 存 中 取 数 据 的 请 求 。cache 2 监听 到 该 动作 ， 但 是 什么 也 没 做 。 当 cache 1 读 
命中 时 ， 请 求 在 本 地 得 到 满足 ， 总 线 上 不 会 发 送 任何 请 求 ， 因 此 cache 2 也 不 知道 cache 1 发 
生 了 读 命中 。 

写 操作 比较 有 趣 。 当 CPU 1 执行 写 操作 时 ， 在 缺失 和 命中 的 情况 下 cache 1 都 要 在 总 线 
上 发 送 写 请 求 。 无 论 是 哪 种 写 请 求 ，cache 2 都 要 检查 写 人 内 存 的 字 是 否 在 自己 的 cache 中 。 
如 果 不 在 ， 那 么 从 cache 2 的 角度 来 看 ， 这 就 是 一 个 远程 的 写 缺 失 请 求 ， 因 此 也 什么 都 不 做 。 
(请 注意 一 点 ， 在 图 8-27 中 远程 的 缺失 意味 着 该 字 不 在 监听 者 的 cache H; 它 并 不 关心 该 字 是 
否 在 写 操作 发 起 者 的 cache 中 。 因 此 某 个 请 求 可 能 对 本 地 cache 来 说 是 命中 而 对 于 监听 者 来 说 
是 缺失 ， 反 之 亦 然 )。 

现在 假定 cache 1 写 人 内 存 的 字 在 cache 2 中 同样 存在 ( 远程 请 求 中 的 写 命 中 )。 如 果 
cache 2 还 是 什么 都 不 做 ， 那 么 相应 的 字 将 变 成 过 时 的 数据 ， 因 此 它 在 包括 这 个 最 新 修改 的 
FH cache 块 上 打上 无 效 标记 。 从 效果 上 来 说 ， 这 相当 于 把 该 块 从 cache 中 移 除 。 因 为 所 有 
的 cache 都 监视 所 有 的 总 线 请 求 ， 所 以 无 论 何 时 写 人 一 个 字 ， 最 后 的 结果 都 是 操作 发 起 者 的 
cache 被 更 新 ， 内 存 被 更 新 ， 其 他 所 有 的 cache 中 的 这 个 字 都 被 置 为 无 效 。 通 过 这 种 方式 ， 就 
避免 了 不 一 致 性 的 出 现 。 

当然 ，cache 2 的 CPU 可 能 在 写 操 作 的 下 一 个 周期 就 去 读 刚 刚 写 人 的 字 。 在 这 种 情况 下 ， 
cache 2 将 从 内 存 读 人 该 字 ， 而 且 该 字 是 最 新 的 。 在 这 一 时 刻 ，cache 1、cache 2 和 内 存 都 具有 
该 字 的 相同 的 拷贝 。 如 果 任 何 一 个 CPU 现在 执行 写 操 作 ， 那 么 另 一 个 CPU 的 cache 中 的 对 应 
字 将 被 清除 ， 内 存 也 将 被 更 新 。 

这 个 基本 协议 存在 多 种 变化 。 例 如 ， 当 写 命 中 时 ， 监 听 的 cache 正常 操作 是 把 包括 该 
字 的 数据 项 置 为 无 效 。 另 外 一 种 方式 是 接收 这 个 新 的 值 并 用 该 值 更 新 cache 而 不 是 将 其 置 为 
有 效 。 从 概念 上 来 说 ， 更 新 cache 和 把 数据 置 为 无 效 再 从 内 存 中 读 取 数据 是 一 样 的 。 所 有 的 
cache 协议 都 必须 在 更 新 策略 (update strategy ) 和 无 效 策略 (invalidate strategy ) 中 作出 选择 。 
这 些 协议 在 不 同 的 负载 下 执行 效果 也 是 不 同 的 。 更 新 消息 的 负载 比 无 效 策略 大 一 些 ， 但 是 可 
以 防止 以 后 出 现 缺 失 。 


HAH HIM R AH 429 


另 一 种 变化 是 cache 写 缺 失 和 的 字 调 人 监听 cache。 这 样 做 并 不 改变 算法 的 正确 
性 ， 影 响 的 只 是 性 能 。 问 题 在 于 :“ 一 个 字 刚 刚 被 写 过 又 再 次 被 写 的 概率 有 多 大 ? ”如 果 概 率 
很 大 ， 那 么 就 可 以 在 写 缺 失 时 把 值 调 人 cache， 这 就 是 写 分 配 策略 ( write-allocate policy )。 如 
果 概 率 很 低 ， 那 么 在 写 缺 失 时 最 好 不 要 更 新 。 如 果 这 个 字 很 快 就 要 被 读 ， 那 么 它 肯 定 会 因为 
读 缺 失 被 调 人 ; 这 时 写 缺 失 时 调 人 字 就 基本 上 没有 得 到 什么 好 处 。 

和 许多 简单 的 方案 一 样 ， 该 方案 的 效率 很 低 。 每 次 写 操作 都 要 通过 总 线 ， 只 要 CPU 的 数 
量 稍微 多 一 些 ， 总 线 就 仍然 是 瓶颈 。 为 了 保证 总 线 的 流量 在 一 定 范 围 之 内 ， 人 们 设计 出 了 其 
他 的 cache 协议 。 它 们 都 具有 一 个 特点 : 写 操作 不 直接 写 人 人 内存。 相反 ， 当 cache 块 被 修改 后 ， 
cache 中 的 某 一 位 将 被 设置 以 表示 该 cache 块 中 的 数据 是 正确 的 而 内 存 中 的 数据 是 过 时 的 。 最 
终 ， 该 块 将 会 被 写 回 内 存 ， 但 是 可 能 是 在 多 次 写 操作 之 后 了 。 这 种 类 型 的 协议 称 为 写 回 协议 
( write-back protocol )。 

2. MESI cache 一 致 性 协议 

MESI 协议 是 一 种 比较 常用 的 写 回 cache 一 致 
性 协议 ， 它 是 用 协议 中 用 到 的 4 种 状态 的 首 字 母 
(M, E, S #1) 来 命名 的 (Papamarcos il Patel, 
1984 )， 从 早期 的 写 一 次 协议 〈 Wie once protocol ) 本 机 = <u 
(Goodman,1983 ) 发 展 而 来 。 目 前 Core i7 和 许多 区 到 E 内 存 

享 





a) CPU 1 读 A 块 





其 他 的 CPU 都 使 用 了 MESI 协 议 来 监听 总 线 。 每 me Ji 
个 cache 项 都 处 于 下 面 4 种 状态 之 一 : 总 线 
1 ) 无 效 (Invalid ) 一 一 该 cache 项 包含 的 数据 b) CPU 2 读 A 块 


无 效 。 

2) 共享 ( Shared ) 一 一 多 个 cache 中 都 有 这 块 
数据 ， 内 存 中 的 数据 是 最 新 的 。 

3) 独占 (Exclusive ) 没有 其 他 的 cache 6) CPU 2 写 A 块 


包 插 这 块 数据 ， 内 存 中 的 数据 是 最 新 的 。 a el z = s 
4) 修改 (Modified ) 一 一 该 项 的 数据 是 有 效 内 存 


的 ， 内 存 中 的 数据 是 无 效 的 ， 而 且 在 其 他 cache 中 
没有 该 数据 项 的 拷贝 。 

当 CPU 刚刚 启动 的 时 候 ， 所 有 的 cache 项 都 d) CPU3 读 A 据 
标记 为 无 效 。 第 一 次 读 取 内 存 时 ， 读 入 CPU 的 过 
cache 块 的 状态 被 标记 为 E (xclusive )， 因 为 这 是 
cache 中 的 唯一 的 一 份 拷贝 ， 如 图 8-28a 所 示 ， 这 
时 CPU 1 读 人 了 一 块 数据 A。 接 下 来 的 CPU 读 操 e) CPU2 写 A 块 


作 都 是 从 cache 中 取得 数据 而 不 用 经 过 总 线 了 。 另 avi) [ew evs 
是 通过 监听 ， 最 初 的 数据 持 有 者 (CPU 1) 看 到 这 


块 数据 是 自己 已 经 有 的 ， 就 在 总 线 上 发 布 通告 宣 

自己 有 一 份 该 数据 的 拷贝 。 这 样 ， 这 两 个 拷贝 就 都 
被 标记 成 S( hared) 状态 ， 如 图 8-28b 所 示 。 因 此 ， 
S 状态 就 意味 着 该 块 数据 在 多 个 cache 中 同时 被 读 取 而 且 内 存 中 的 数据 是 最 新 的 。CPU 对 处 














Ð CPU 1 写 A 块 
图 8-28 MESI cache 一 致 性 协议 
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于 S 状态 的 cache 块 的 读 操作 不 使 用 总 线 而 且 也 不 会 产生 状态 改变 。 

现在 考虑 一 下 如 果 CPU 2 向 S 状态 的 cache 块 写 人 数据 会 发 生 什么 情况 。 它 会 把 一 个 无 
效 信号 通过 总 线 传送 给 其 他 的 CPU， 通 知 它们 把 相应 的 数据 拷贝 置 为 无 效 。 而 CPU 2 自己 的 
cache 块 的 状态 则 变 成 了 M (modified )， 如 图 8-28c 所 示 。 该 块 并 不 需要 写 回 内 存 。 需 要 指出 
的 是 如 果 处 于 E 状态 的 cache 块 发 生 了 写 操作 ， 则 不 需要 给 其 他 的 cache 发 送 无 效 信号 AW 
我 们 知道 其 他 cache 中 并 不 存在 该 数据 块 的 拷贝 。 

下 面 考虑 一 下 CPU 3 读 该 块 时 会 发 生 什么 情况 。 拥 有 该 块 的 CPU 2 知道 内 存 中 的 数据 是 
无 效 的 ， 因 此 CPU 2 就 在 总 线 上 发 送 一 个 信号 通过 CPU 3 等 待 它 把 该 块 写 回 内 存 。 当 写 回 操 
作 完 成 后 ，CPU 3 就 从 内 存 中 取得 数据 的 拷贝 ， 然 后 把 CPU 2 和 CPU 3 cache 中 的 该 块 都 标 
WAHE, WE 8-28d 所 示 。 在 这 之 后 ，CPU 2 再 次 写 该 块 ， 这 将 使 CPU 3 cache 中 的 对 应 块 
无 效 ， 如 图 8-28e 所 示 。 

最 后 ，CPU 1 想 向 该 块 中 写 和 一 个 字 。CPU 2 要 发 生 写 操作 就 在 总 线 土 发 送 一 个 信和 号 通 
知 CPU 1 等 待 它 把 该 块 写 回 内 存 。 当 写 回 操作 完成 后 ，CPU 2 将 自己 cache 中 的 该 块 标记 为 
无 效 ， 因 此 它 知道 CPU 1 将 会 修改 该 块 。 这 时 我 们 面临 的 是 CPU 向 没有 缓存 的 块 中 写 和 人数 
据 的 情况 。 如 果 使 用 了 写 分 配 策略 ， 该 块 将 被 读 人 cache 并 标记 为 M 状态 ， 如 图 8-28f 所 示 。 
如 果 没 有 使 用 写 分 配 策略 ， 将 直接 对 内 存 执行 写 操作 而 且 该 块 并 不 会 被 读 入 任何 caches 

3. 使 用 交叉 开关 的 UMA 多 处 理 器 

即使 使 用 了 各 种 可 能 的 优化 措施 ， 由 于 总 线 带 宽 的 限制 ， 所 以 基于 单 总 线 的 UMA 多 
处 理 器 系统 的 规模 最 多 也 就 是 16 个 或 者 32 个 CPU。 为 了 使 用 更 多 的 CPU， 我 们 需要 另 一 
种 形式 的 互联 网 络 。 连 接 个 CPU 和 大 个 内 存 模块 的 最 简单 的 电路 就 是 交叉 开关 ( crossbar 
switch )， 如 图 8-29 所 示 。 交 叉 开 关 技 术 在 电话 交换 机 中 已 经 使 用 了 数 十 年 ， 它 可 以 按照 任意 
的 次 序 把 输入 线路 和 输出 线路 连接 起 来 。 






交叉 开关 打开 





b) 打开 的 交叉 点 
交叉 开关 闭合 








(c) 
打开 交叉 开关 c) 闭合 的 交叉 点 
a) 8xg8 的 交叉 开关 


图 8-29 


每 条 水 平 线 ( 输 入 线 ) MEHA ( 输出 线 ) 的 交点 都 是 一 个 交叉 点 (crosspoint )。 一 个 


关闭 交叉 开关 
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交叉 点 就 是 一 个 小 的 交换 节点 ， 它 的 电路 状态 可 以 是 打开 或 者 关闭 的 ， 有 具体 状态 取决 于 垂直 
线 和 水 平 线 是 否 处 于 连接 状态 。 在 图 8-29a 中 ， 我 们 看 到 3 个 交叉 点 同时 关闭 ， 这 就 同时 建 
立 了 3 个 CPU 和 内 存 的 连接 (CPU， 内 存 ):(001，000)、(101，101)、(110，010 )。 许 多 
其 他 的 组 合 也 是 可 以 的 。 实 际 上 ， 组 合 的 数量 等 于 在 国际 象棋 的 棋盘 上 放置 8 个 车 的 方案 数 。 
交叉 开关 网 络 是 一 种 无 阻塞 的 网 络 ( nonblocking network )， 这 是 它 最 好 的 一 个 特性 ， 这 就 
意味 着 CPU 不 会 因为 某 些 交叉 点 或 者 线路 被 占用 而 无 法 与 内 存 模块 建立 连接 ( 假定 内 存 模块 
是 可 用 的 )。 而 且 ， 建 立 连接 时 不 需要 事先 规划 。 即 使 已 经 建立 了 7 个 任意 的 连接 ， 仍 然 有 可 
能 在 剩 下 的 CPU 和 剩 下 的 内 存 之 间 建 立 连接 。 下 面 我 们 要 讨论 的 互联 网 络 就 不 具有 这 些 特点 。 
交叉 开关 最 差 的 一 个 特点 就 是 交叉 点 的 数量 达到 了 rw 个。 对 于 中 等 规模 的 系统 ， 交 叉 开 
关 设 计 是 可 行 的 。 本 章 的 后 面 会 讨论 一 个 这 样 的 设计 ， 就 是 Sun Fire E25K。 然 而 ， 如 果 需 要 
使 用 1000 个 CPU 和 1000 个 内 存 模块 ,那么 就 需要 1 000 000 个 交叉 点 。 这 么 多 的 交叉 点 是 
不 可 能 实现 的 。 我 们 要 使 用 其 他 某 些 不 同 的 策略 。 
4. 使 用 多 级 交换 网 络 的 UMA 多 处 理 器 
刚才 提 到 的 “ 某 些 不 同 的 策略 ”可 以 基于 图 8-30a 所 示 的 小 的 2 x 2 交换 节点 。 该 交换 节 
点 具有 两 个 输入 和 两 个 输出 。 从 任意 输入 线 到 达 的 消息 都 可 以 交换 到 任意 的 输出 线 ， 对 我 们 
来 说 ， 消 息 最 多 可 以 包括 4 个 部 分 ， 如 图 8-30b 所 示 。Module 字段 指出 使 用 哪个 内 存 模块 。 
Address 定义 了 模块 内 的 地 址 。Opcode 指定 操作 ， 比 如 READ 或 者 WRITE。 最 后 ， 可 选 的 
Value 字段 可 以 包括 一 个 操作 数 ， 例 如 WRITE 操作 要 写 人 的 32 位 字 。 交 换 节点 检查 Module 
字段 以 判断 消息 应 该 通过 扎 传 递 还 是 通过 了 传递 。 
si 
a) 2x2 交 换 结 点 b) 消息 格式 
8-30 


我 们 可 以 采用 很 多 种 方式 用 我 们 的 2 x 2 的 交换 节点 组 成 比较 大 的 多 级 交换 网 络 ( multistage 
switching network )。 其 中 有 一 种 是 只 提供 必要 服务 的 、 经 济 的 omega 网 络 ， 如 图 8-31 所 示 。 
在 图 中 我 们 使 用 了 12 个 交换 节点 连接 了 8 个 CPU 和 8 个 内 存 模 块 。 一 般 来 说 ， 如 果 有 nn 个 
CPU 和 nn 个 内 存 模 块 ， 就 需要 logan 级 ， 每 级 n/2 个 交换 节点 ， 一 共 是 (n/2 ) logn 个 交换 节 
点 ， 这 要 比 r 个 交叉 点 的 情况 好 多 了 ， 尤 其 当 n 比较 大 时 。 

omega 网 络 的 配 线 模式 通常 称 为 全 混 洗 (perfect shuffle )， 在 网 络 的 每 一 段 都 要 把 信号 分 
成 两 部 分 然后 两 部 分 之 间 一 一 混合 。 为 了 理解 omega 网 络 的 工作 原理 ， 我 们 假定 CPU 011 需 
要 从 内 存 模块 110 中 读 取 一 个 字 。 该 CPU 将 发 送 一 条 Module 字段 为 110 的 READ 消息 给 交 
换 节 点 1D。 交 换 节 点 取出 110 最 左面 的 位 来 确定 如 何 传送 这 条 消息 。 如 果 是 0 就 从 上 面 的 输 
出 线 输出 ， 如 果 是 1 就 从 下 面 的 输出 线 输出 。 由 于 110 最 左面 是 1， 这 条 消息 将 通过 下 输出 
线 传递 给 2D。 

包括 2D 在 内 的 所 有 第 二 级 交换 节点 都 使 用 第 二 位 来 确定 如 何 发 送 消息 。110 的 第 二 位 还 
是 1， 因此 这 条 消息 将 通过 下 输出 线 发 送 给 3D。3D 继续 使 用 第 三 位 来 决定 消息 发 送 的 方向 ， 
第 三 位 是 0。 因 此 ， 该 消息 将 从 3D 的 上 输出 线 输 出 到 达 内 存 模 块 110， 这 正 是 我 们 希望 的 。 
这 条 消息 通过 的 路 径 在 图 8-31 中 用 字母 a 表示 。 
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图 8-31 omega 交换 网 络 


因为 消息 在 交换 网 中 传递 ， 所 以 并 不 需要 CPU 的 模块 号 。 但 是 我 们 可 以 利用 CPU 模块 
号 记录 消息 的 输入 线 ， 这 样 响 应 信息 就 可 以 找到 相应 的 路 径 。 对 路 径 a 来 说 ， 输 入 线 分 别 是 
0 1D 的 上 输入 线 )、1(2D 的 下 输入 线 ) 和 1( 3D 的 下 输入 线 )。 响 应 消息 可 以 使 用 011 来 寻 径 ， 
不 过 这 次 需要 从 右 往 左 读 。 

在 CPU 011 读 取 内 存 模块 110 的 同时 ，CPU 001 需要 往 内 存 Module 001 中 写 和 人 一 个 字 。 
接 下 来 的 过 程 和 上 面 讨论 的 类 似 ， 消 息 分 别 按照 上 、 上 、 下 输出 线 进行 寻 径 ， 在 图 8-31 中 用 
字母 b 表示 。 当 它 到 达 的 时 候 ， 它 的 Module 001 表示 了 它 所 经 过 的 路 径 。 由 于 这 两 个 内 存 访 
问 请 求 使 用 的 交换 节点 、 链 路 和 内 存 模块 都 不 相同 ， 因 此 它们 可 以 并 行 执行 。 

现在 再 考虑 一 下 如 果 CPU 000 也 同时 想 访 问 内 存 模块 000 会 发 生 什么 情况 。 它 的 访问 请 
SRAI CPU 001 的 访问 请 求 在 交换 节点 3A 处 会 发 生 冲 突 。 它 们 其 中 必然 有 一 个 要 处 于 等 待 状 
态 。 和 交叉 开关 不 同 ，omega 网 络 是 有 阻塞 的 网 络 (blocking network )。 在 omega 网 络 中 并 非 
所 有 的 请 求 都 可 以 同步 执行 ， 当 需要 使 用 同一 条 链 路 或 者 同一 个 交换 节点 ， 或 者 请 求 访问 同 
一 个 内 存 模块 时 都 会 发 生 冲 突 。 

很 显然 ， 我 们 需要 把 内 存 模块 构造 成 一 致 的 内 存 访问 空间 。 一 种 常用 的 技术 是 使 用 地 址 
的 低 几 位 作为 模块 号 。 举 一 个 例子 ， 在 一 台 32 位 字 的 计算 机 中 使 用 面向 字 节 的 地 址 空间 。 最 
低 的 两 位 一 般 来 说 应 该 是 00， 接 下 来 的 三 位 可 以 均匀 分 布 。 当 把 这 三 位 作为 模块 号 时 ， 连 续 
地 址 的 字 就 处 于 连续 的 内 存 模块 中 。 这 种 连续 的 内 存 字 位 于 不 同 的 内 存 模块 中 的 系统 称 为 交 
错 型 内 存 系统 。 交 错 型 内 存 可 以 获得 最 大 限度 的 并 行 性 因为 大 多 数 内 存 引 用 都 是 连续 地 址 的 
引用 。 我 们 也 可 以 设计 无 阻塞 的 交换 网 络 并 使 每 个 CPU 和 每 个 内 存 模块 之 间 都 有 多 条 路 径 ， 
这 样 可 以 更 好 地 分 担 流量 。 


8.3.4 NUMA 多 处 理 器 系统 


我 们 现在 已 经 知道 基于 单 总 线 的 UMA 多 处 理 器 系统 的 CPU 数量 最 多 也 就 几 十 个 而 基 
于 交叉 开关 或 者 交换 网 络 的 UMA 多 处 理 器 系统 需要 大 量 的 ( 昂贵 的 ) 硬件 而 且 CPU 数量 也 
不 可 能 太 多 。 为 了 构造 超过 100 个 CPU 的 多 处 理 器 系统 ， 我 们 需要 放弃 一 些 东 西 。 一 般 来 
说 ， 我 们 放弃 的 是 “所 有 的 内 存 模块 都 有 一 致 的 访问 时 间 ” 这 一 思想 。 这 一 让 步 就 产生 了 非 
一 致 性 内 存 访问 (NonUniform Memory Access, NUMA) 多 处 理 器 系统 。 和 UMA 系统 一 样 ， 
NUMA 系统 也 为 所 有 的 CPU 提供 了 单一 的 地 址 空间 ， 但 是 和 UMA 不 一 样 的 是 ,在 NUMA 
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系统 中 访问 本 地 内 存 模块 比 访 问 远 程 内 存 模块 速度 快 。 因 此 ， 所 有 为 UMA 计算 机 编写 的 程 
序 都 可 以 不 加 修改 地 在 NUMA 计算 机 上 运行 ， 但 是 在 相同 的 时 钟 频率 下 ， 人 性 能 将 低 于 UMA 
计算 机 。 

NUMA 计算 机 有 3 个 区 别 于 其 他 处 理 器 系统 的 关键 特点 : 

1) 所 有 的 CPU 都 看 到 一 个 单一 的 地 址 空间 。 

2) 使 用 LOAD 和 STORE 指令 访问 远程 内 存 。 

3) 访问 远程 内 存 比 访问 本 地 内 存 慢 。 

不 隐藏 远程 内 存 的 访问 时 间 (原因 是 没有 使 用 cache) 的 NUMA 系统 称 为 NC-NUMA。 
如 果 使 用 了 cache， 系 统 就 被 称 为 CC-NUMA ( 至 少 硬件 设计 者 这 么 称呼 它 )。 软 件 设计 者 一 
般 把 它 称 为 硬件 实现 的 分 布 式 共享 内 存 (hardware DSM )， 因 为 它 和 软件 实现 的 分 布 式 共享 内 
存 的 基本 思想 是 一 样 的 ， 只 不 过 是 由 使 用 小 页 面 的 硬件 来 实现 。 

最 早 的 NC-NUMA 计算 机 (尽管 那 时 还 没有 这 种 称呼 ) 之 一 就 是 卡 内 基 梅 隆 的 Cm*， 如 
图 8-32 所 示 ( Swan 等 ,1977 )。 它 由 一 组 LSI-11 CPU 组 成 ， 每 块 CPU 都 有 可 以 通过 局 部 总 
线 访 问 的 内 存 模块 (LSI-11 是 DEC PDP-11 的 单 芯片 版 本 ， 是 一 种 在 20 世纪 70 年 代 很 流行 
的 微型 计算 机 )。 另 外 ，LSL11 系统 之 间 通 过 系统 总 线 相连 。 当 内 存 访问 请 求 进入 (进行 过 特 
殊 修改 的 ) MMU 之 后 ， 将 检查 请 求 访问 的 字 是 否 在 本 地 内 存 中 。 如 果 是 ,请 求 将 通过 局 部 
总 线 发 送 到 本 地 内 存 去 读 取 该 字 。 如 果 不 是 ， 请 求 将 通过 系统 总 线 发 往 拥有 该 字 的 模块 ， 然 
后 由 拥有 该 字 的 模块 发 回响 应 信息 。 当 然 ， 后 者 所 花费 的 时 间 肯 定 比 前 者 长 。 当 一 个 程序 高 
兴 地 在 远程 内 存 上 运行 时 ， 它 将 比 在 本 地 内 存 上 运行 相同 的 程序 多 花 十 倍 的 时 间 。 

CPU Af CPU A CPU 内存 CPU ”内 存 





系统 总 线 
图 8-32 ”基于 两 级 总 线 的 NUMA 计算 机 。Cm* 是 第 一 台 使 用 这 种 设计 的 多 处 理 器 系统 


在 NC-NUMA 中 ， 内 存 的 一 致 性 是 有 保证 的 ， 因 为 在 这 种 系统 中 没有 使 用 cache。 每 个 
内 存 字 都 只 在 一 个 地 点 存在 ， 因 此 不 存在 包含 陈旧 数据 的 拷贝 ， 因 为 根本 就 没有 任何 数据 的 拷 
贝 存在 。 当 然 ， 哪 个 页 面 位 于 哪个 内 存 模块 中 是 很 重要 的 ， 如 果 内 存 页 面 在 错误 的 位 置 上 性 能 
的 损失 将 相当 大 。 因 此 ，NC-NUMA 使 用 了 精心 设计 的 软件 来 移动 页 面 以 使 性 能 达到 最 佳 。 

一 般 来 说 ，NC-NUMA 中 有 一 个 称 为 页 面 扫描 器 (page scanner) 的 后 台 进 程 ， 每 隔 几 秒 
种 就 运行 一 次 。 它 的 工作 是 统计 页 面 的 使 用 情况 ， 并 通过 移动 页 面 来 提高 性 能 。 如 果 页 面 出 
现在 不 合适 的 位 置 上 ， 页 面 扫描 器 将 取消 对 它 的 映射 ， 这 样 下 一 次 内 存 访问 就 会 产生 缺 页 。 
当 缺 页 发 生 时 ， 就 要 决定 把 该 页 放 在 哪里 ， 而 决定 放置 的 位 置 和 它 原来 的 位 置 很 可 能 不 同 。 
为 了 防止 出 现 颠 艇 现象 ， 通 常会 规定 一 旦 某 个 页 面 被 放 在 了 某 个 位 置 上 ， 它 就 必须 在 这 个 位 
置 上 果 上 至 少 AT 的 时 间 。 人 们 对 不 同 的 算法 进行 了 研究 , 但 是 结论 是 没有 任何 一 种 算法 可 
以 在 所 有 的 情况 下 都 获得 最 佳 的 性 能 (LaRowe 和 Ellis，1991 )。 最 佳 的 性 能 依赖 于 应 用 。 

l.cache 一 致 的 NUMA 多 处 理 器 系统 

图 8-32 中 所 示 的 多 处 理 器 系统 的 可 扩展 性 很 差 ， 因 为 它们 没有 使 用 cache。 每 次 使 用 非 
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本 地 内 存 中 的 字 都 要 访问 远程 内 存 ， 这 会 严重 地 影响 性 能 。 但是， 如 果 使 用 了 cache， 就 必须 
保证 cache 的 一 致 性 。 保 证 cache 一 致 性 的 一 种 办 法 是 监听 系统 总 线 。 这 种 方案 从 技术 上 来 说 
并 不 困难 ， 但 是 如 果 CPU 数 超过 一 定数 目 ， 那 么 这 种 方案 就 行 不 通 了 。 为 了 建造 大 型 的 多 处 
理 器 系统 ， 我 们 需要 一 种 完全 不 同 的 策略 。 

目前 建造 大 型 的 CC-NUMA (Cache Coherent NUMA, cache 一致 的 NUMA ) 多 处 理 器 
系统 最 常用 的 策略 是 基于 目录 的 多 处 理 器 系统 。 其 主要 设计 思想 是 维护 一 个 数据 库 记 录 每 个 
cache 块 在 什么 位 置 上 以 及 状态 是 什么 。 当 某 个 cache 卖 被 引用 时 ， 将 查询 该 数据 库 找到 该 块 
的 位 置 以 及 该 块 是 干净 的 还 是 脏 的 (也 就 是 被 修改 过 的 )。 由 于 每 条 访问 内 存 的 指令 都 要 查询 
这 个 数据 库 ， 因 此 这 个 数据 库 必须 保存 在 速度 非常 快 的 专用 硬件 中 ， 以 保证 在 不 到 一 个 总 线 
周期 的 时 间 内 作出 响应 。 

为 了 使 基于 目录 的 多 处 理 器 系统 的 设计 思想 更 加 清晰 ， 我们 考虑 一 个 简单 的 〈 假想 的 ) 
例子 ， 一 个 256 个 结 点 的 系统 ， 每 个 节点 由 CPU 与 通过 局 部 总 线 和 CPU 相连 的 16MB 的 
RAM 组 成 。 全 部 的 内 存 空 间 是 2? 字 节 ， 分 成 了 27° cache 块 ， 每 块 64 个 字 节 。 内 存在 结 
点 之 间 静 态 分 配 ，0 ~ 16MB 位 于 结 点 0，16 ~ 32MB 位 于 结 点 1， 依 此 类 推 。 节 点 通过 互 
联网 络 连 接 ， 如 图 8-33a 所 示 。 互 联网 络 可 以 是 网 格 型 的 、 超 立方 体 和 其 他 类 型 的 拓扑 结构 。 
每 个 结 点 保持 记录 2 个 64 字 节 的 cache 块 的 目录 项 ， 正 好 包含 了 SWAG. MERN 
假定 ,一 块 最 多 只 能 保存 在 一 个 cache 中 。 
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图 8-33 





为 了 了 解 目 录 是 如 和 何 工 作 的 ， 让 我 们 跟踪 CPU 20 引用 一 个 cache HI LOAD 指令 。 首 
先 ，CPU 把 指令 发 送 到 它 的 MMU F, MMU 把 指令 中 的 地 址 转换 成 物理 地 址 ， 比 如 说 ， 
0x24000108。MMU 把 这 个 地 址 分 成 三 部 分 ， 如 图 8-33b 所 示 。 如 果 采 用 十 进 制 表 示 ， 这 三 
部 分 分 别 是 节点 36、 第 4 块 和 偏 移 量 8。MMU 看 到 被 访问 的 内 存 字 位 于 结 点 36 而 不 是 结 
点 20， 它 就 通过 互联 网 络 向 结 点 36 发 送 一 条 请 求 消息 ， 询 问 它 第 4 块 是 否 在 cache 中 ， 如 果 
是 ， 在 哪里 。 


HATA HMRAAL] 435 


当 请 求 消息 通过 互联 网 络 到 达 结 点 36 之 后 ， 它 被 递交 给 目录 硬件 。 硬 件 检索 它 含有 2" 
个 表 项 的 表 ( 每 个 cache 块 都 有 一 项 )， 然 后 找到 第 4 项 。 从 图 8-33c 中 我 们 看 到 该 块 并 没有 
被 缓存 ， 因 此 硬件 从 本 地 内 存 中 取出 第 4 块 并 把 它 发 送 给 结 点 20， 然 后 修改 目录 项 4 指明 该 
块 目前 缓存 在 结 点 20 中 。 

现在 我 们 考虑 第 二 个 请 求 ， 这 次 请 求 的 是 结 点 36 的 第 2 块 。 从 图 8-33c 中 我 们 看 到 该 块 
正好 缓存 在 结 点 82 中 。 这 时 硬件 将 修改 目录 项 2 以 指明 该 块 现在 在 结 点 20 中 ， 然 后 发 送 一 
条 消息 给 结 点 82 让 它 把 该 块 送 给 结 点 20 并 把 自己 的 cache 置 为 无 效 。 需 要 指出 的 是 ， 即 使 
在 所 谓 的 共享 内 存 多 处 理 器 系统 中 ， 仍 然 会 发 生 大 量 的 消息 传递 。 

下 面 我 们 来 计算 一 下 使 用 目录 会 占用 多 少 内 存 。 每 个 结 点 有 16MB RAM， 需 要 使 用 2" 
个 9 位 的 项 来 记录 整个 RAM 的 情况 。 因 此 目录 的 大 小 大 约 是 9x2” 位 ， 如 果 除 以 16MB 大 
约 是 1.76%， 这 一 比例 是 可 以 接受 的 (尽管 它 需 要 被 放 在 高 速 内 存 中 ， 这 样 会 增加 它 的 实现 
代价 )。 即使 使 用 32 个 字 节 的 cache 块 ， 人 额外 的 负载 也 只 占 4%。 如 果 使 用 128 FH cache 
块 ， 负 载 将 低 于 1%。 

这 种 设计 的 一 个 很 明显 的 限制 就 是 一 个 cache 块 只 能 缓存 在 一 个 结 点 中 。 为 了 人 允许 多 个 
结 点 同时 缓存 一 块 ， 我 们 需要 某 种 方式 来 对 它们 进行 定位 ， 例 如 ， 在 写 操作 时 把 它们 置 为 无 
效 或 者 对 它们 进行 修改 。 可 以 有 多 种 方法 来 实现 多 个 结 点 同时 缓存 一 块 。 

一 种 方法 是 给 每 个 目录 项 个 域 来 存放 其 他 的 结 点 ， 这 样 可 以 允许 一 块 最 多 缓存 在 个 
结 点 中 。 第 二 种 方法 是 使 用 位 图 来 替换 结 点 号 ， 每 位 一 个 结 点 号 。 使 用 这 种 方式 ,拷贝 的 数 
量 没有 限制 ,但 是 负载 相应 增加 了 。 每 个 64 字 节 (512 位 ) 的 cache 块 都 需要 256 位 的 位 图 ， 
这 意味 着 负载 超过 了 50%。 第 三 种 方法 是 为 每 个 目录 项 分 配 一 个 8 位 的 域 ， 该 域 指向 一 个 保 
存 所 有 cache 块 拷贝 的 链表 的 头 部 。 这 种 方法 需要 为 每 个 结 点 分 配 链表 指针 的 存储 空间 而 且 
查找 某 个 拷贝 时 需要 顺序 遍历 整个 链表 。 每 种 方式 都 有 其 优点 和 和 缺点， 这 三 种 方法 在 实际 的 
系统 中 都 被 使 用 过 。 

目录 设计 的 另 一 个 改进 是 掌握 每 个 cache 块 是 干净 的 (宿主 内 存 的 数据 是 最 新 的 ) 还 是 
脏 的 (宿主 内 存 的 数据 不 是 最 新 的 )。 当 一 个 干净 的 cache 块 的 读 请 求 到 达 时 ， 结 点 将 从 内 存 
中 取出 数据 来 满足 读 请 求 ， 而 不 需要 把 该 请 求 转发 到 某 个 cache 中 。 但 是 ， 如 果 是 一 个 读 脏 
cache 块 的 请 求 ， 就 必须 被 发 送 到 持 有 该 块 的 结 点 去 ， 因 为 只 有 那里 才 有 正确 的 拷贝 。 如 果 只 
允许 一 个 cache 拷贝 ， 如 图 8-33 所 示 ， 那 么 保留 这 种 干净 与 否 的 信息 并 不 会 带 来 任何 实际 的 好 
处 ， 因 为 任何 新 的 请 求 都 会 导致 一 条 发 往 持 有 现 有 拷贝 的 结 点 让 它 把 该 拷贝 置 为 无 效 的 消息 。 

当然 ， 掌 握 每 个 cache 块 是 干净 还 是 脏 也 就 意味 着 每 当 一 个 cache 块 被 修改 时 ， 必 须 通 
知 它 的 宿主 结 点 ， 即 使 只 有 一 个 cache 拷贝 存在 也 得 这 么 做 。 如 果 存 在 多 个 拷贝 ， 则 修改 其 
中 的 一 个 必须 把 所 有 其 他 的 拷贝 置 为 无 效 ， 因 此 需要 某 种 协议 来 防止 出 现 竞争 条 件 。 例 如 ， 
某 个 持 有 者 需要 修改 某 个 共享 的 cache 块 时 ， 必 须 先 请 求 排他 性 的 访问 。 这 样 的 请 求 被 许可 
之 前 ， 将 把 所 有 其 他 的 拷贝 置 为 无 效 。CC-NUMA 计算 机 的 其 他 的 一 些 性 能 优化 措施 请 参考 
Cheng 和 Carter ( 2008 ) 的 相关 论述 。 

2. Sun Fire E25K NUMA 多 处 理 器 

作为 共享 内 存 的 NUMA 多 处 理 器 的 实例 ， 我 们 来 研究 一 下 Sun 微 系统 公司 的 Sun Fire 
系列 计算 机 。 尽 管 这 一 系列 计算 机 由 各 种 型 号 的 机 器 构成 ， 我 们 还 是 将 精力 集中 在 E25K 上 ， 
它 有 72 个 UltraSPARC IV CPU 芯片 。UltraSPARC IV 实质 上 就 是 共享 cache 和 内 存 的 一 对 
UltraSPARC 亚 处 理 器 。E15K 和 E25K 本 质 上 来 说 是 同样 的 系统 ， 只 不 过 前 者 使 用 的 是 单 处 
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理 器 芯片 ， 而 后 者 使 用 的 是 双 处 理 器 芯片 。 虽 然 这 种 多 处 理 器 目前 所 存 无 几 ， 但 是 从 我 们 的 
角度 来 看 ， 让 人 感 兴趣 的 还 是 使 用 CPU 最 多 的 机 器 是 如 何 工 作 的 。 

E25K 系统 最 多 可 以 有 18 个 板 组 ， 每 个 板 组 由 一 块 CPU 内 存 板 、 一 块 带 有 四 个 PCI 模 
的 IO 板 以 及 一 块 将 CPU 内 存 板 和 VO 板 连接 到 中 心 背 板 的 扩展 板 组 成 ， 中 心 背 板 支持 各 种 
板 卡 ， 并 且 具 有 交换 逻辑 。 每 块 CPU 内 存 板 由 4 个 CPU 芯片 和 4 个 8GB 的 内 存 模块 构成 。 
因此 ，E25K 中 的 每 块 CPU 内 存 板 支持 8 个 CPU 和 32GB 的 RAM (E15K 中 只 有 4 个 CPU 
和 4 个 32GB AY RAM )。 这 样 算 来 一 台 完 整 的 E25K 就 由 144 个 CPU、576GB AY RAM 和 72 
个 PCI 槽 ， 如 图 8-34 所 示 。 十 分 有 趣 的 是 数字 18 的 选择 是 由 于 包装 的 约束 : 具有 18 个 板 组 
的 系统 是 最 大 的 ， 一 次 能 够 通过 门口 一 个 。 当 程序 员 还 在 考虑 0 和 ! 的 时 候 ， 工 程 师 却 不 得 
不 为 诸如 客户 如 何 把 产品 通过 大 门 搬 进 大 楼 这 类 事情 而 烦恼 。 


























图 8-34 Sun 微 系统 公司 的 E25K 多 处 理 器 


中 心 背 板 由 一 组 3 个 18x18 交叉 开 关 组 成 ， 用 来 连接 18 个 板 组 。 其 中 一 个 交叉 开关 
用 于 地 址 线 ， 一 个 交叉 开关 用 于 应 答 ， 还 有 一 个 交叉 开关 用 于 数据 传输 。 除 了 18 个 扩展 板 
之 外 ， 中 心 背 板 还 插 接 着 一 个 系统 控制 板 。 这 个 板 组 虽然 只 有 一 个 CPU， 但 是 还 有 与 CD- 
ROM、 和 磁带、 串 行 线 以 及 其 他 外 设 的 各 种 接口 ， 以 满足 启动 、 维 护 和 控制 系统 的 需要 。 

任何 一 个 多 处 理 器 系统 的 核心 都 是 内 存 子 系统 。 那 么 如 何 将 144 个 CPU 和 分 布 式 内 存 连 
接 起 来 呢 ? 最 简单 的 方式 就 是 使 用 共享 的 监听 型 总 线 或 者 使 用 144 x 72 的 交叉 开关 ,但 是 这 
样 的 方式 不 能 令 人 满意 。 前 者 行 不 通 是 因为 总 线 的 瓶颈 问题 ， 后 者 行 不 通则 是 因为 构造 这 样 
的 交叉 开关 太 难 、 太 贵 。 诸 如 E25K 这 样 的 大 型 多 处 理 器 系统 必须 要 采用 更 为 复杂 的 内 存 子 
系统 。 

在 板 组 这 一 层 ， 可 以 采用 监听 逻辑 ， 这 样 所 有 的 本 地 CPU 都 能 够 检查 来 自 板 组 的 所 有 内 
存 请 求 是 否 访问 的 是 自己 cache 中 缓存 的 内 存 块 。 因 此 ， 当 CPU 需要 从 内 存 中 读 取 一 个 字 的 
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时 候 ， 它 首先 将 虚拟 地 址 转换 为 物理 地 址 并 检查 自己 的 cache. ( 物理 地 址 有 43 位 ， 但 由 于 
封装 的 限制 内 存 最 多 只 能 到 576GB。) 如 果 需 要 的 cache 块 在 它 自 己 的 cache 中 ， 那 么 就 返回 
相应 的 字 。 和 否则 ， 监 听 逻 辑 检查 板 组 的 其 他 地 方 是 否 还 有 这 个 字 的 拷贝 ， 如 果 有 相应 的 拷贝 ， 
那么 请 求 也 得 到 满足 。 如 果 没 有 相应 的 拷贝 ， 请 求 就 通过 下 面 所 述 18 x 18 的 地 址 交叉 开关 进 
行 传送 。 监 听 逻 辑 每 个 时 钟 周 期 进行 一 次 监听 。 系 统 时 钟 以 150MHz 频率 运行 ， 所 以 每 个 板 
组 每 秒 可 以 进行 150 兆 次 监听 ， 整 个 系统 每 秒 可 以 进行 27 亿 次 监听 。 

尽管 逻辑 上 监听 逻辑 是 一 条 总 线 ， 如 图 8-34 所 示 ， 但 物理 结构 上 监听 逻辑 是 一 棵 设备 
树 ， 命 令 可 以 沿 着 树 向 上 或 者 向 下 传递 。 当 CPU 或 者 PCI 板 给 出 地 址 时 ， 地 址 就 通过 点 到 点 
的 连接 传递 到 地 址 中 继 器 ， 如 图 8-35 所 示 。 两 个 地 址 中 继 器 在 扩展 板 上 汇聚 ， 然 后 地 址 沿 着 
设备 树 被 发 送 到 各 个 设备 进而 检查 是 否 命 中 。 这 种 设计 可 以 避免 使 用 带 有 三 块 板 卡 的 总 线 。 
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图 8-35 Sun Fire E25K 使 用 四 级 互联 。 虚 线 是 地 址 通路 ， 实 线 是 数据 通路 


数据 传输 使 用 如 图 8-35 所 示 的 四 级 互联 。 选 择 这 种 设计 主要 是 为 了 获得 较 高 性 能 。 在 第 
0 级 ,成 对 的 CPU 芯片 和 内 存 通过 小 的 交叉 开关 连接 起 来 ， 同 时 也 有 到 第 1 级 的 连接 。 两 组 
CPU- 内 存 对 通过 第 1 级 另外 的 交叉 开关 进行 连接 。 交 叉 开 关 是 定制 的 ASIC， 对 它们 来 说 所 
有 的 行 和 列 都 可 以 是 输入 ， 当 然 也 不 是 所 有 的 组 合 都 可 以 (只 是 有 意义 的 才 行 )。 全 部 的 板 上 
交换 逻辑 都 使 用 3 x 3 的 交叉 开关 。 

每 个 板 组 由 三 块 板 卡 组 成 : CPU- 内 存 板 、I/O 板 和 扩展 板 ， 扩 展板 连接 其 他 两 块 板 。 第 
2 级 的 互联 是 由 扩展 板 上 另外 一 个 3x3 的 交叉 开关 完成 的 ， 连 接 真正 的 内 存 到 IO 端口 ( 实 
际 上 是 在 所 有 的 UltraSPARC 中 的 内 存 的 映射 )。 板 组 所 有 向 内 或 者 向 外 的 数据 传输 ， 无 论 是 
和 内 存 还 是 和 IO 端口 ， 都 要 经 过 第 2 级 交换 。 最 后 ， 如 果 要 对 远程 板 进行 数据 传输 ， 那 么 
数据 还 要 经 过 第 3 级 的 18 x 18 数据 交叉 开关 。 因 为 数据 传输 中 每 次 传送 32 个 字 节 ， 所 以 要 
花费 两 个 时 钟 周期 来 传送 64 个 字 节 ， 也 就 是 通常 的 传送 单元 。 

在 看 过 各 个 部 件 如 何 安排 之 后 ， 我 们 现在 将 注意 力 转向 共享 内 存 是 如 何 进 行 操作 的 。 在 
最 底层 ，576GB 的 内 存 被 分 成 2” 块 ， 每 块 64 个 字 节 。 这 些 块 是 内 存 系统 的 最 小 单位 。 每 块 
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内 存 都 有 自己 的 宿主 板 ， 也 就 是 没有 其 他 地 方 使 用 这 块 内 存 时 它 所 在 的 地 方 。 大 多 少 内 存 块 
在 大 多 数 时 间 里 都 是 在 它们 的 宿主 板 上 的 。 然 而 ， 当 CPU 需要 一 个 内 存 块 的 时 候 ， 或 者 从 它 
自己 所 在 的 板 上 或 者 从 其 他 17 块 远程 板 中 的 某 一 块 ， 它 首先 都 要 将 相应 内 存 块 的 拷贝 放 到 自 
己 的 cache 中， 然后 对 cache 中 的 拷贝 进行 访问 。 尽 管 E25K 上 每 个 CPU 芯片 包含 两 个 CPU， 
但 这 两 个 CPU 还 是 要 共享 同一 个 物理 cache， 也 就 是 要 共享 这 个 cache 中 的 所 有 内 存 块 。 

每 个 内 存 块 和 每 个 CPU 芯片 中 的 cache 块 都 可 能 是 下 面 三 种 状态 之 一 : 

1) 独占 访问 〈 为 了 进行 写 操作 )。 

2) 共享 访问 (为 了 进行 读 操 作 )。 

3) 无 效 (也 就 是 内 存 块 为 空 )。 

当 CPU 需要 读 或 者 写 一 个 内 存 字 的 时 候 ， 它 首先 检查 自己 的 cache。 如 果 没 有 在 cache 
中 找到 这 个 内 存 字 ，CPU 就 通过 广播 物理 地 址 的 方式 在 它 所 在 的 板 组 上 发 送 一 个 本 地 请 求 。 
如 果 板 组 上 的 某 个 cache 中 有 需要 的 块 ， 监 听 逻 辑 就 会 检测 到 访问 命中 ， 然 后 对 请 求 进行 啊 
应 。 如 果 块 处 于 独占 模式 ， 那 么 就 将 该 块 传送 给 请 求 者 并 将 原始 拷贝 标记 为 无 效 。 如 果 块 处 
于 共享 模式 ， 那 么 cache 就 不 进行 响应 ， 因 为 cache 块 是 干净 的 时 候 内 存 总 是 会 响应 的 。 

如 果 监 听 人 逻辑 没有 找到 cache 块 或 者 找到 了 但 cache 块 处 于 共享 状态 ,那么 它 就 通过 中 心 
背 板 发 送 一 个 请 求 到 宿主 板 询 问 相 应 的 内 存 块 在 什么 地 方 。 由 于 每 个 内 存 块 的 状态 存储 在 该 
块 的 ECC 位 中 ， 所 以 宿主 板 能 马上 确定 它 的 状态 。 如 果 此 块 没有 共享 或 者 同一 个 或 多 个 远程 
板 一 起 共享 ， 那么 宿主 内 存 就 要 进行 更 新 ， 然 后 对 内 存 块 的 请 求 就 可 以 从 宿主 板 的 内 存 中 得 
到 满足 。 在 这 种 情况 下 , cache 块 的 一 个 拷贝 就 通过 数据 交叉 开关 在 两 个 时 钟 周 期 内 进行 传送 ， 
并 最 后 到 达 发 出 请 求 的 CPU。 

如 果 请 求 是 要 进行 读 操作 ， 那 么 宿主 板 的 目录 中 就 要 加 一 项 ， 用 来 表明 又 有 一 个 新 客户 
在 共享 这 个 cache 块 ， 然 后 整个 事务 就 算 完成 了 。 但 是 ， 如 果 请 求 是 要 进行 写 操 作 ， 那 么 就 
要 发 送 无 效 消息 给 所 有 上 有 具有 相应 内 存 块 拷贝 的 其 他 板 ( 如 果 有 的 话 )。 通 过 这 种 方式 ， 发 出 写 
请 求 的 板 最 终 得 到 相应 内 存 块 唯一 的 拷贝 。 

现在 考虑 另外 一 种 情况 ， 如 果 被 请 求 的 块 位 于 其 他 板 上 并 且 处 于 独占 状态 该 怎么 办 。 当 
宿主 板 得 到 请 求 时 ， 它 在 目录 中 查找 远程 板 的 位 置 并 且 给 请 求 者 发 送 一 个 消息 从 而 告诉 它 
cache 块 位 于 何 处 。 请 求 者 这 时 再 发 送 请 求 到 正确 的 板 组 。 当 请 求 到 达 正 确 的 板 组 时 ， 该 板 组 
将 cache 块 发 送 给 请 求 者 。 如 果 这 是 一 个 读 请 求 ， 那 么 cache 块 被 标记 为 共享 ， 并 将 拷贝 发 送 
给 宿主 板 。 如 果 这 是 一 个 写 请 求 ， 那 么 响应 者 将 自己 的 拷贝 置 为 无 效 ， 从 而 新 的 请 求 者 就 有 
了 独占 状态 的 一 个 拷贝 。 

由 于 每 块 板 都 有 22 个 内 存 块 ， 那 么 最 坏 的 情况 下 就 要 使 用 具有 2” 项 的 目录 来 进行 跟 
踪 。 因 为 实际 的 目录 要 比 2” 小 得 多 ,那么 一 些 目录 项 就 会 出 现 没 有 目录 空间 (在 该 目录 中 进 
行 搜索 ) 的 情况 。 在 这 种 情况 下 ， 宿 主 目录 就 不 得 不 通过 向 其 他 17 个 板 广播 请 求 的 方式 来 定 
位 需要 的 块 。 响 应 交叉 开关 在 保持 目录 一 致 和 更 新 协议 中 扮演 了 重要 的 角色 ， 它 能 处 理 很 多 
返回 给 发 送 者 的 反 向 流量 。 通 过 将 协议 流量 分 离 到 两 条 总 线 ( 地 址 和 响应 ) 将 数据 分 离 到 第 
三 条 总 线 上 ， 整 个 系统 的 吞吐 量 大 为 增加 。 

通过 将 负载 分 布 在 不 同 板 的 多 个 设备 上 ，Sun Fire E25K 能 够 获得 非常 高 的 性 能 。 除 了 
前 面 提 到 的 每 秒 27 亿 次 监听 之 外 ， 中 心 背 板 还 能 同时 处 理 9 个 传输 、9 个 板 发 送 、9 个 板 接 
收 。 由 于 数据 交叉 开关 是 32 字 节 宽 ， 那 么 每 个 时 钟 周期 可 以 有 288 个 字 节 通过 中 心 背 板 。 以 
150MHz 的 时 钟 频率 运行 ， 当 所 有 的 访问 都 是 远程 时 ， 峰 值 聚集 带宽 可 以 达到 40GB/s。 如 果 
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软件 能 保证 以 大 部 分 访问 都 是 本 地 的 方式 来 放置 页 面 的 话 ， 那 么 系统 带宽 可 能 比 40GB/s 还 要 
略微 高 一 些 。 
有 关 Sun Fire 更 多 的 技术 资料 可 以 参考 Charlesworth ( 2002 ) 和 Charlesworth ( 2001 )。 
2009 年 Oracle 收购 了 Sun 微 系统 公司 ， 他 们 继续 开发 基于 SPARC 的 服务 器 。SPARC 企 
业 版 M9000 是 E25K 的 继任 者 。M9000 采用 更 快 的 四 核 SPARC 处 理 器 ， 具 有 更 多 的 内 存 和 
PCIe H ERT, ABA M9000 服务 器 具有 256 个 SPARC 处 理 器 ，4TB 的 DRAM 内 存 和 128 
个 PCIe 类 型 VO 接口 。 


8.3.5 COMA 多 处 理 器 系统 


NUMA 和 CC-NUMA 计算 机 有 相同 的 缺点 ， 它 们 访问 远程 的 内 存 比 访问 本 地 内 存 速度 
慢 。 在 CC-NUMA 计算 机 中 ， 通 过 使 用 cache 在 某 种 程度 上 隐藏 了 这 种 性 能 的 差别 。 无 论 怎 
样 ， 如 果 需 要 使 用 的 远程 数据 超过 了 cache 的 能 力 ， 那 么 cache 不 命中 的 情况 将 会 频繁 出 现 ， 
性 能 也 会 急剧 下 降 。 

因此 我 们 面 对 的 情况 是 UMA 计算 机 性 能 很 好 但 是 规模 受到 一 定 的 限制 而 且 价 格 昂贵 。 
NC-NUMA 计算 机 可 扩展 性 较 好 ,但 是 需要 手动 或 者 半自动 地 放置 页 面 ， 通常 使 用 混合 型 。 
问题 在 于 很 难 预 测 需 要 使 用 的 页 面 的 位 置 ， 而 且 在 任何 一 种 情况 下 ,页面 作为 一 个 移动 的 单 
元 来 说 都 太 大 了 。CC-NUMA 计算 机 ， 例 如 Sun Fire E25K， 当 许多 CPU 都 需要 大 量 的 远程 
数据 时 ， 人 性 能 将 会 变 得 很 差 。 总 而 言 之 ， 每 种 设计 方案 都 有 很 大 的 局 限 性 。 

另 一 种 类 型 的 多 处 理 器 系统 试图 通过 把 每 个 CPU 的 主 存 作为 cache 来 解决 这 些 问 题 。 在 
这 种 称 为 COMA (Cache Only Memory Access ) 的 多 处 理 器 系统 中 ， 页 面 并 不 像 NUMA 和 
CC-NUMA 计算 机 中 的 页 面 那样 固定 在 宿主 计算 机 中 。 实 际 上 ， 页 面 根本 就 不 重要 。 

在 COMA 系统 中 ， 物 理 地 址 空间 被 划分 成 cache 块 ， 这 些 块根 据 需 要 在 系统 中 来 回 移 
动 。cache 块 不 再 有 宿主 计算 机 ， 就 像 某 些 第 三 世界 国家 中 的 游牧 民族 一 样 ， 所 谓 家 就 是 你 现 
在 所 在 的 地 方 。 只 存放 需要 的 块 的 内 存 称 为 吸引 内 存 (attraction memory )。 把 主 存 作为 一 个 
大 的 cache 可 以 极 大 地 提高 命中 率 ， 从 而 提高 性 能 。 

不 幸 的 是 ， 和 往常 一 样 ， 没 有 免费 的 午餐 。COMA 系统 存在 两 个 新 的 问题 : 

1) 如 何 对 cache 块 进行 定位 ? 

2) 当 需 要 把 某 块 从 内 存 中 清除 掉 时 ， 如 果 该 块 是 最 后 一 个 拷贝 会 发 生 什么 情况 ? 

第 一 个 问题 主要 和 下 面 的 事实 有 关 ， 当 MMU 把 虚拟 地 址 转换 成 物理 地 址 后 ， 如 果 该 块 
不 在 实际 的 硬件 cache 中 ， 那 么 就 没有 简单 的 方法 来 说 明 该 块 是 否 在 主 存 中 。 在 这 里 ， 分 页 
硬件 帮 不 上 任何 忙 ， 因 为 每 个 页 面 都 是 由 许多 相互 独立 的 块 组 成 的 。 更 进一步 说 ， 即 使 知道 
该 块 不 在 主 存 中 ,那么 它 又 在 哪里 呢 ? 我 们 不 可 能 去 询问 宿主 计算 机 ， 因 为 根本 就 不 存在 宿 
主 计算 机 。 

为 了 解决 寻 址 问题 ， 人 们 已 经 提出 了 多 种 解决 方案 。 为 了 检查 某 个 cache 块 是 否 在 主 存 
中 ， 需 要 增加 新 的 硬件 来 跟踪 每 个 缓存 块 的 标记 。MMU 可 以 通过 比较 需要 的 块 的 标记 和 内 
存 中 所 有 块 的 标记 来 寻 址 内 存 中 是 否 有 该 块 。 这 种 方案 需要 额外 的 硬件 。 

一 种 与 上 面 的 方案 稍微 不 同 的 方案 是 映射 整个 页 面 ， 但 是 不 需要 所 有 的 cache 块 都 存在 。 
在 这 种 方案 中 ， 硬 件 需要 给 每 页 配备 一 张 位 图 ,每 个 cache 块 有 一 位 指明 该 起 是 否 在 内 存 中 。 
在 这 种 称 为 简单 COMA 的 设计 中 如 果 一 个 cache 块 存在 ， 它 就 必须 位 于 页 面 的 正确 的 位 置 
上 ， 如 果 它 不 在 内 存 中 ,那么 任何 使 用 它 的 企图 都 会 导致 陷阱 ， 这 样 软 件 就 会 找到 它 并 把 它 
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调 人 内 存 。 


那么 我 们 如 何 找到 确实 位 于 远程 的 块 呢 ? 一 种 方案 是 给 每 页 分 配 一 个 宿主 计算 机 ， 分 配 
是 根据 目录 项 的 位 置 决定 的 ， 而 不 是 根据 数据 的 位 置 决 定 的 。 这 样 在 对 cache 块 寻 址 时 至 少 
需要 给 宿主 计算 机 发 送 一 条 消息 。 其 他 的 方案 包括 把 内 存 组 织 成 树 形 结构 ， 查 找 时 从 根 节点 
向 叶子 节点 查找 直到 找到 该 块 为 止 。 

上 面 提 到 的 第 二 个 问题 的 解决 方法 是 不 要 清除 掉 最 后 一 个 拷贝 。 和 CC-NUMA 一 样 ， 一 
个 cache 块 可 以 同时 位 于 多 个 节点 中 。 当 发 生 cache 不 命中 时 ， 该 块 必须 被 调 人 内 存 ， 这 也 意 
味 着 某 块 必须 被 丢弃 。 那 么 当 为 了 丢弃 而 选中 的 块 是 最 后 一 个 找 贝 时 会 发 生 什么 呢 ? 在 这 种 
情况 下 ， 该 块 就 不 能 被 丢弃 。 

一 种 解决 方案 是 继续 使 用 目录 来 检查 是 否 有 其 他 的 拷贝 。 如 果 有 ， 该 块 就 可 以 被 安全 
地 丢弃 。 和 否则 ， 就 必须 把 该 块 转移 到 别 的 地 方 。 另 一 种 方案 是 把 每 个 cache 块 的 一 个 拷贝 标 
WHE (master) 拷贝 ， 主 拷贝 永远 不 能 被 丢弃 。 这 种 方案 避免 了 检查 目录 的 操作 。 总 而 言 
Z, COMA 号 称 可 以 提供 比 CC-NUMA 更 好 的 性 能 ， 但 是 实际 建造 的 COMA 系统 却 很 少 ， 
因此 COMA 系统 还 需要 积累 更 多 的 经 验 。 最 早 建 造 的 两 种 COMA 机 器 是 KSR-1 (Burkhardt 
等 ,1992 ) 和 Data Diffusion 计算 机 ( Hagersten 等 ,1992 )。 关 于 COMA 更 多 较 新 的 论文 请 参 
Æ Vu 等 人 (2008 )、Zhang 和 Jesshope (2008 ) 等 的 相关 工作 。 


8.4 消息 传递 的 多 计算 机 


正如 我 们 在 图 8-23 中 看 到 的 那样 ，MIMD 并 行 处 理 系统 可 以 分 成 两 大 类 : 多 处 理 器 系 
统 和 多 计算 机 系统 。 本 章 的 前 面部 分 研究 了 多 处 理 器 系统 。 我 们 看 到 ， 从 操作 系统 角度 来 看 ， 
多 处 理 器 系统 提供 了 能 够 使 用 通常 的 LOAD 和 STORE 指令 存 取 的 共享 内 存 。 我 们 已 经 知道 ， 
这 种 共享 内 存 可 以 用 多 种 方式 实现 ， 包 括 监听 总 线 、 数 据 交 叉 开 关 、 多 级 交换 网 络 和 各 种 基 
于 目录 的 机 制 。 无 论 如 何 ， 为 多 处 理 器 系统 编写 的 程序 可 以 访问 内 存 的 任何 位 置 而 不 用 知道 
内 存 的 内 部 拓扑 结构 或 实现 机 制 。 这 也 是 多 处 理 器 系统 具有 如 此 大 的 吸引 力 的 原因 。 

而 另 一 方面 ， 多 处 理 器 系统 也 有 人 它 自 身 的 限制 ， 这 也 是 多 计算 机 系统 显得 同样 重要 的 
原因 。 首 先 而 且 最 重要 的 一 点 是 多 处 理 器 系统 很 难 扩展 到 很 大 的 规模 。 我 们 已 经 看 到 Sun 使 
用 了 大 量 的 硬件 才 使 E25K 扩展 到 了 72 个 CPU。 作 为 比较 ， 下 面 我 们 来 研究 具有 .65 536 个 
CPU 的 多 计算 机 系统 。 经 过 若干 年 的 努力 ， 人 们 或 许可 以 造 出 具有 65 536 个 CPU 的 商用 多 
处 理 器 系统 ， 但 是 到 那 时 候 ， 人 们 已 经 可 以 使 用 上 百 万 个 节点 的 多 计算 机 系统 了 。 

另外 ， 多 处 理 器 系统 中 的 内 存 争 用 对 性 能 的 影响 很 大 。 如 果 100 个 CPU 经 常 读 写 同一 个 
变量 ， 那 么 对 内 存 模块 、 总 线 和 目录 的 争 用 将 使 性 能 受到 很 大 的 影响 。 

考虑 到 刚才 这 些 因素 ,我 们 对 建造 和 使 用 每 个 CPU 都 有 自己 的 私有 内 存 的 并 行 计 算 机 系 
统 很 感 兴趣 。 在 这 样 的 系统 中 ， 一 个 CPU 不 能 访问 其 他 CPU 的 私有 内 存 ， 这 就 是 多 计算 机 
系统 。 在 多 计算 机 系统 上 运行 的 程序 通过 使 用 类 似 于 send Ail receive 这 样 的 原 语 发 送 消息 来 
进行 交互 ， 因 为 多 计算 机 系统 中 的 CPU 不 能 使 用 LOAD 和 STORE 指令 互相 访问 内 存 。 这 种 
差别 使 两 种 系统 的 编程 模式 完全 不 同 。 

多 计算 机 系统 中 的 每 个 节点 都 由 一 个 或 者 多 个 CPU、RAM ( 可 能 在 一 个 结 点 上 的 CPU 
之 间 共 享 )、 磁 盘 或 者 其 他 的 输入 /输出 设备 和 通信 处 理 器 组 成 。 通 信 处 理 器 通过 8.4.1 节 中 
讨论 的 那些 类 型 的 高 速 互 联网 络 相互 连接 起 来 。 可 以 使 用 多 种 不 同 的 拓扑 结构 、 交 换 策略 和 
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路 由 算法 。 所 有 的 多 计算 机 系统 的 一 个 共同 的 特点 是 当 应 用 程序 执行 send 原 语 时 ， 系 统 就 
会 通知 通信 和 处理 器 把 一 块 用 户 数 据 传递 到 目的 计算 机 中 ( 可 能 首先 要 发 出 请 求 并 获得 许可 )。 
图 8-36 是 多 计算 机 系统 的 通用 结构 。 


CPU 内 存 CPU 内 存 











高 性 能 互联 网 络 


图 8-36 通用 多 计算 机 体系 结构 


8.4.1 互联 网 络 


在 图 8-36 中 我 们 看 到 ， 多 计算 机 可 以 通过 互联 网 络 连接 在 一 起 。 下 面 我 们 来 详细 地 研究 
一 下 互联 网 络 。 很 有 趣 的 是 ， 多 处 理 器 系统 和 多 计算 机 系统 在 互联 网 络 方面 是 很 类 似 的 ， 因 
为 多 处 理 器 通常 有 多 个 内 存 模块 ， 这 些 内 存 模块 之 间 以 及 内 存 模块 和 CPU 之 间 也 需要 通过 互 
联网 络 连接 。 因 此 ， 本 小 节 的 材料 同时 适用 于 两 种 系统 。 

导致 多 处 理 器 系统 和 多 计算 机 系统 的 互联 网 络 很 类 似 的 原因 是 它们 的 底层 都 使 用 了 消息 [67] 
传递 机 制 。 即 使 在 一 台 单 CPU 的 计算 机 中 ， 当 处 理 咒 想 要 读 写 一 个 内 存 字 时 ， 它 也 需要 把 一 
些 特定 的 数据 放 在 总 线 上 然后 等 待 响 应 。 这 一 动作 和 消息 传递 是 基本 类 似 的 : 发 起 者 发 送 一 
个 请 求 然 后 等 待 响应 。 在 一 个 大 规模 的 多 处 理 器 系统 中 ，CPU 之 间 、CPU 与 远程 内 存 之 间 的 
通信 基本 上 是 按照 下 面 的 步骤 进行 的 : CPU 首先 向 内 存 发 送 一 条 请 求 数据 的 消息 ， 我 们 称 为 
分 组 (packet )， 然 后 内 存 向 该 CPU 发 回 分 组 响应 。 

拓扑 结构 

互联 网 络 的 拓扑 结构 描述 了 链 路 和 交换 节点 是 如 何 安排 的 ， 比 如 环形 结构 和 网 状 结构 。 
拓扑 结构 设计 可 以 用 图 来 表示 ， 链 路 用 边 表示 ， 交 换 节 点 用 节点 表示 ， 如 图 8-37 所 示 。 互 联 
网 络 (或 者 它 的 表示 图 ) 中 的 每 个 节点 都 有 边 与 之 相连 。 数 学 家 把 和 某 个 节点 相连 的 边 的 数 
量 称 为 节点 的 度 (degree )， 工 程 师 则 把 它 称 为 扇 出 〈 fanout )。 一 般 来 说 ， 扇 出 越 大 ， 路 由 选 
择 能 力 就 越 强 ， 容 错 能 力也 越 强 。 容 错 的 意思 是 说 当 某 条 链 路 失效 时 可 以 绕 过 这 条 线路 继续 
保持 系统 正常 工作 。 如 果 每 个 节点 有 大 条 边 而 且 线 路 都 是 正确 的 ， 那 么 我 们 可 以 设计 一 种 网 
络 在 k-1 条 链 路 都 失效 时 也 能 继续 工作 。 

互联 网 络 (RECKE) 的 另 一 个 属性 是 直径 (diameter )。 如 果 我 们 使 用 两 个 节点 之 间 
的 边 数 来 表示 两 个 节点 之 间 的 距离 ， 那 么 图 的 直径 就 是 图 中 相距 最 远 的 两 个 节点 之 间 的 距离 。 
互联 网 络 的 直径 直接 关系 到 CPU 和 CPU 之 间 以 及 CPU 和 内 存 之 间 交 换 分 组 时 的 最 大 延迟 ， 
因为 通过 每 条 链 路 都 要 花费 一 定 的 时 间 。 直 径 越 小 ， 最 坏 情况 下 的 性 能 就 越 好 。 两 个 节点 之 
间 的 平均 距离 也 很 重要 ， 因 为 它 关 系 到 分 组 的 平均 传递 时 间 。 

互联 网 络 的 另 一 个 很 重要 的 特性 是 它 的 传输 能 力 ， 也 就 是 每 秒 能 传递 多 少数 据 。 一 种 可 
以 测量 互联 网 络 的 传输 能 力 的 属性 就 是 对 分 带宽 〈besection bandwidth )。 为 了 计算 对 分 带宽 ， 
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我 们 首先 把 网 络 分 成 两 个 相等 ( 节点 数 相等 ) 而 且 不 相连 的 部 分 〈 移 走 图 中 的 一 些 边 )。 然 后 
我 们 计算 移 走 的 边 的 带宽 之 和 。 因 为 可 以 有 许多 种 把 网 络 划分 成 两 个 相等 部 分 的 方式 ， 因 而 
也 就 会 得 到 许多 个 值 ， 对 分 带宽 就 是 所 有 这 些 值 中 最 小 的 。 这 个 数值 的 意义 在 于 如 果 对 分 带 
宽 是 800 位 / 秒 , 并且 网 络 的 两 部 分 之 间 有 大 量 的 通信 ， 那 么 整个 流量 被 限制 在 800 位 / FEZ 
内 ， 这 是 最 坏 的 情况 。 许 多 设计 者 认为 对 分 带宽 是 互联 网 络 最 重要 的 性 能 指标 。 许 多 互联 网 


络 在 设计 时 就 考虑 了 使 对 分 带宽 达到 最 大 。 


c) 树 形 连接 








d) 环形 e) 网 格 形 O 双向 环 


g) 立方 体 h) 四 维 的 超 立 方 体 


图 8-37 不 同 的 拓扑 结构 。 黑 点 表示 交换 节点 ， 图 中 没有 画 出 CPU 和 内 存 


互联 网 络 可 以 按照 维 数 (dimensionality ) 进行 分 类 。 出 于 分 类 的 目的 ， 我 们 把 维 数 定义 
为 源 节 点 和 目的 节点 之 间 可 供 选择 的 路 径 的 数量 。 如 果 没 有 任何 选择 ( 也 就 是 说 ， 每 个 源 节 
点 到 每 个 目的 节点 都 只 有 一 条 路 径 )， 网 络 就 是 0 维 的 。 如 果 可 以 有 一 种 选择 ， 网 络 就 是 1 维 
的 ， 比 如 说 ， 往 东 走 还 是 往 西 走 。 如 果 有 2 维 ， 也 就 是 说 分 组 可 以 选择 往 东 往 西 或 者 往 南 往 
北 ， 那 么 网 络 就 是 2 维 的 ， 依 此 类 推 。 

图 8-37 中 列 出 了 几 种 拓扑 结构 。 图 中 只 画 出 了 链 路 ( 边 ) 和 交换 节点 ( 点 )。 内 存 和 
CPU 没有 画 出 来 ， 它 们 是 通过 接口 连接 在 交换 节点 上 的 。 图 8-37a 是 一 个 0 维 的 星 形 (star) 
网 络 ，CPU 和 内 存 连 接 在 外 围 的 节点 上 ， 中 间 节 点 只 做 交换 。 虽 然 这 种 设计 很 简单 ， 但 是 对 
一 个 大 系统 来 说 ， 中 间 的 交换 节点 可 能 成 为 一 个 主要 的 瓶颈 。 另 外 ， 从 容错 的 角度 来 看 , 这 
也 是 一 个 很 不 好 的 设计 ， 因 为 如 果 中 间 的 交换 节点 出 了 问题 整个 系统 就 将 崩溃 。 

图 8-37b 是 另 一 种 0 维 网 络 ， 全 相连 网 络 (full interconnect )。 每 个 节点 和 任何 一 个 其 他 
的 节点 之 间 都 有 一 条 边 。 这 种 设计 的 对 分 带宽 最 大 ， 半 径 最 小 ， 而 且 容 错 性 能 极 好 ( 损失 任 
意 6 条 边 仍然 能 够 完全 相连 )。 但 是 不 幸 的 是 ， 对 于 个 节点 来 说 ， 全 连接 需要 K(k-1)/2 条 
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边 ， 当 比较 大 时 ， 边 的 数量 会 太 大 以 致 于 不 可 能 实现 。 

另外 一 种 拓扑 结构 是 树 (tree), WE 8-37c 所 示 。 这 种 设计 的 问题 是 对 分 带宽 等 于 单条 
链 路 的 容量 。 一 般 来 说 ， 靠 近 树 的 顶部 的 节点 流量 比较 大 ， 因 此 顶部 几 个 节点 将 成 为 瓶颈 。 
解决 这 一 问题 的 一 种 方法 是 给 顶部 的 链 路 增加 带宽 来 增 大 对 分 带宽 。 例 如 ， 如 果 最 底层 的 链 
路 的 容量 是 b»， 上 一 层 的 容量 就 是 268， 顶层 链 路 的 容量 就 是 45。 这 种 设计 方案 称 为 胖 树 ( fat 
tree )， 该 方案 已 经 用 于 某 些 商 用 多 计算 机 系统 了 ， 例 如 Thinking Machines 公司 (该 公司 现在 
已 经 不 存在 了 ) 的 CM-5。 

根据 我 们 对 维 数 的 定义 ， 图 8-37d 中 的 环形 (ring) 网 络 是 一 种 1 维 的 拓扑 结构 ， 因 为 
发 送 每 个 分 组 时 都 要 选择 向 左 走 还 是 向 右 走 。 图 8-37e 中 的 网 格 形 (grid 或 者 mesh) 网 络 是 
一 种 2 维 的 设计 ， 许 多 商用 系统 都 使 用 了 这 种 结构 。 这 种 设计 很 有 规律 ， 易 于 扩展 ， 而 且 直 
径 与 节点 数 的 平方 根 成 正比 。 网 格 形 网 络 的 一 种 变 体 是 图 8-37f 中 所 示 的 双向 环形 (double 
torus) 网 络 ， 这 是 一 种 把 边缘 节点 连接 起 来 的 网 格 形 网 络 。 它 不 仅 容错 性 能 高 于 网 格 形 网 络 
而 且 直 径 也 比 网 格 形 网 络 小 ， 因 为 对 角 的 节点 之 间 只 有 两 条 边 。 

另 一 种 流行 的 拓扑 结构 是 三 维 环形 结构 。 这 种 拓扑 结构 由 三 维 结构 组 成 ， 节 点 坐标 (i, 
k) 取 值 范围 是 从 (7,7,7)~(4 m,n)。 每 个 节点 都 有 6 个 邻居 节点 ， 每 个 轴 向 有 两 个 邻居 节点 。 
同 二 维 环形 结构 一 样 ， 边 缘 上 的 节点 折 回 同 相 对 边 上 的 节点 进行 连接 。 

图 8-37g 中 的 立方 体 ( cube ) 网 络 是 一 种 规则 的 三 维 拓扑 结构 。 我 们 画 的 是 一 个 2x2x2 
的 立方 体 ,， 一 般 情况 下 可 以 是 kxkxk 的 立方 体 。 图 8-37h 中 是 一 个 4 维 的 立方 体 ， 它 是 通过 
把 两 个 3 维 立 方 体 相应 的 节点 连接 起 来 而 组 成 的 。 我 们 可 以 用 4 个 立方 体 按照 同样 的 方法 组 
成 5 维 的 立方 体 。 如 果 想 得 到 6 维 的 立方 体 ， 可 以 拷贝 另外 4 个 立方 体 ， 并 把 相应 的 边 连接 
起 来 ， 依 此 类 推 。 使 用 这 种 方式 构成 的 n 维 立方 体 称 为 超 立 方 体 (hypercube )。 因 为 直径 随 
着 维 数 线性 增长 ， 所 以 许多 并 行 计算 机 都 使 用 这 种 拓扑 结构 。 换 名 话说 ， 直 径 是 节点 数 的 以 
2 为 底 的 对 数 ， 比 如 ， 举 例 来 说 ， 有 1024 个 节点 的 10 维 超 立方 体 的 直径 也 是 10， 这 样 可 以 
获得 很 好 的 延迟 特性 。 可 以 比较 一 下 ， 如 果 把 1024 个 节点 设计 成 32x 32 的 网 格 型 网 络 ， 其 
直径 是 62， 是 超 立 方 体 的 6 倍 多 。 但 是 超 立 方 体 获 得 比较 小 的 直径 是 以 扇 出 作为 代价 ， 也 就 
是 链 路 的 数量 很 大 ， 代 价 也 很 高 。 虽 然 如 此 ， 超 立方 体 仍然 是 高 性 能 系统 通常 选择 的 方案 。 

多 计算 机 系统 有 各 种 不 同 的 形状 和 规模 ， 因 此 对 它们 进行 清晰 的 分 类 是 比较 困难 的 。 但 是 
一 般 来 说 ， 可 以 把 多 计算 机 系统 分 成 两 大 类 : MPP 和 集群 。 下 面 我 们 来 依次 讨论 这 两 种 系统 。 


8.4.2 ”MPP 一 一 大 规模 并 行 处 理 器 


第 一 类 多 计算 机 系统 是 大 规模 并 行 处 理 系统 (Massively Parallel Processor, MPP )， 这 是 
一 种 价值 数 百 万 美元 的 超级 计算 机 系统 。 它 们 被 用 于 科学 计算 、 工 程 计算 和 其 他 需要 大 量 计 
算 的 工业 部 门 ， 每 秒 可 以 处 理 大 量 事务 ， 还 可 以 用 于 数据 仓库 ( 存储 并 管理 大 量 数据 库 的 系 
F) 最初，MPP 是 主要 用 于 科学 计算 的 超级 计算 机 ,但 是 现在 它们 大 多 数 都 用 于 商务 环境 。 
从 某 种 意义 上 说 ， 这 些 计算 机 是 20 世纪 60 年 代 那 些 功 能 强大 的 主机 的 后 代 ( 当然， 它们 之 
间 的 联系 是 很 弱 的 ， 就 像 古生物 学 家 宣称 麻 淮 是 雷 克 斯 暴 龙 的 后 代 一 样 )。 从 很 大 程度 上 来 
说 ，MPP 系统 取代 了 数字 食物 链 顶 部 的 SIMD 计算 机 、 向 量 超 级 计算 机 和 阵列 处 理 机 的 位 置 。 

大 多 数 的 MPP 系统 都 使 用 标准 的 CPU 作为 它们 的 处 理 器 。 比 较 常 用 的 有 Intel 处 理 器 、 
Sun UltraSPARC 和 IBM PowerPC. {Ë MPP 系统 不 同 于 其 他 系统 的 是 它 使 用 了 高 性 能 的 私 用 
互联 网 络 ， 可 以 在 低 延 时 和 高 带宽 的 条 件 下 传递 消息 。 低 延 时 和 高 带宽 这 两 个 特点 都 很 重要 ， 
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因为 大 部 分 信息 都 很 小 (通常 小 于 256 个 字 节 )， 但 是 大 部 分 的 流量 是 来 自 于 比较 大 的 消息 
(超过 SKB), MPP 系统 还 需要 使 用 大 量 定制 的 软件 和 库 。 

MPP 系统 的 另 一 个 特点 是 它们 具有 强大 的 输入 /输出 能 力 。 需 要 使 用 MPP 解决 的 问题 往 
往 要 处 理 大 量 的 数据 ， 常 常会 达到 工 字 节 。 这 些 数据 必须 分 布 在 多 个 磁盘 上 ， 而 且 需 要 在 节 
点 之 间 以 很 高 的 速率 传送 。 

最 后 一 点 ， 在 MPP 中 有 一 个 特殊 的 问题 是 如 何 进行 容错 。 在 使 用 数 千 个 CPU 的 情况 下 ， 
每 星期 有 若干 个 CPU 失效 是 不 可 避免 的 。 但 是 如 果 因 为 一 个 CPU 月 演 导 致 一 个 运行 了 18 
个 小 时 的 任务 被 取消 是 令 人 无 法 接受 的 ， 尤 其 是 当 这 种 情况 每 周 都 会 出 现时 。 因 此 大 规模 的 
MPP 系统 总 是 使 用 特殊 的 硬件 和 软件 来 监控 系统 ,检测 错误 并 从 错误 中 平滑 地 恢复 。 

现在 我 们 可 以 开始 研究 MPP 的 一 般 设 计 原理 了 ,但 是 实际 上 ，MPP 中 并 没有 太 多 原理 
性 的 东西 。 你 可 以 认为 ，MPP 就 是 由 我 们 已 经 讨论 过 的 快速 的 互联 网 络 连 接 起 来 的 比较 标 
准 的 计算 节点 的 组 合 。 因 此 ， 下 面 我 们 将 不 讨论 设计 原理 而 是 介绍 两 种 实际 的 MPP 系统 : 
BlueGene/P 和 Red Storm, 

1.BlueGene 

作为 大 规模 并 行 处 理 器 的 第 一 个 实例 ， 我 们 先 来 研究 一 下 IBM 的 BlueGene A¥E. IBM 
在 1999 年 启动 这 个 项 目 ， 建 造 大 规模 并 行 超级 计算 机 的 目的 是 为 了 解决 生命 科学 等 领域 中 计 
算 密 集 型 的 问题 。 例 如 ， 生 物 学 家 相信 有 蛋白质 的 三 维 结构 决定 了 它 的 功能 ， 然 而 根据 物理 定 
律 计算 一 个 很 小 的 蛋白 质 的 三 维 结构 使 用 当时 的 超级 计算 机 也 要 花费 数 年 。 人 类 身上 发 现 的 
蛋白 质 的 数量 已 经 超过 了 50 万 种 ， 而 且 很 多 蛋白 质 都 非常 大 ， 这 些 蛋 白质 的 结构 变化 是 形成 
某 些 特定 疾病 ( 例如 胆 宫 纤 维 症 ) 的 主要 原因 。 显 然 ， 确 定 所 有 人 类 和 蛋白质 的 三 维 结构 的 需 
求 要 求 增强 计算 能 力 ， 为 蛋白 质 分 解 建 模 只 是 设计 BlueGene 来 处 理 的 一 个 问题 。 分 子 动力 
学 、 气 候 建 模 、 航 天 以 及 金融 建 模 等 领域 所 面临 的 复杂 问题 的 挑战 也 会 对 提高 超级 计算 的 能 
力 不 断 提出 新 的 需求 。 

IBM 认为 超级 计算 的 市 场 很 大 ， 所 以 它 投资 1 亿美 元 来 设计 和 建造 BlueGene。2001 年 
11 月 ， 美 国 能 源 部 的 Livermore 国家 实验 室 和 IBM 签署 了 合作 协议 ， 成 为 BlueGene 家 族 第 
一 代 机 器 BlueGene/L 的 首位 用 户 。2007 年 ，IBM 部 署 了 第 二 代 BlueGene 超级 计算 机 ， 命 名 
为 BlueGene/P， 也 就 是 我 们 下 面 要 详细 讨论 的 。 

BlueGene 项 目的 目标 不 仅 要 制造 世界 上 最 快 的 MPP 机 器 ， 而 且 还 要 制造 效率 最 高 的 机 
器 ， 有 具体 的 指标 就 是 万 亿 次 序 点 计算 / 美元、 万 亿 次 浮 点 计算 / 瓦 和 万 亿 次 浮 点 计算 /立方 米 。 
正 因 如 此 ，IBM 一 反 以 前 MPP 的 设计 方法 ， 也 就 是 采用 能 买 到 的 最 快 的 部 件 。 相 反 ，IBM 决 
定 生产 一 种 定制 的 片 内 系统 部 件 ， 让 它 以 适中 的 速度 和 功 耗 运行 ， 这 样 能 够 生产 出 高 密度 封 
装 的 巨型 机 器 。 第 一 台 BlueGene/P 在 2007 年 11 月 交付 给 德国 的 大 学 。 该 系统 具有 65 636 个 
处 理 器 ， 计 算 能 力 达 到 167 万 亿 次 浮 点 运算 / 秒 ， 交付 的 时 候 该 系统 是 全 欧洲 最 快 的 计算 机 ， 
在 全 世界 也 能 排 在 第 6 位 。BlueGene/P 被 公认 是 全 球 最 具 计 算 能 效 的 超级 计算 机 之 一 ， 达 到 
371 万 亿 次 浮 点 计算 / 瓦 ， 是 其 上 一 代 BlueGene/L 计算 能 效 的 近 两 倍 。 最 早 部 署 的 BlueGene/P 
系统 在 2009 年 进行 了 升级 ， 使 用 294 912 个 处 理 器 ， 计 算 能 力 达 到 1 千 万 亿 次 / 秒 。 

BlueGene/P 系统 的 核心 是 如 图 8-38 所 示 的 定制 节点 芯片 。 它 由 4 个 850MHz 的 
PowerPC 450 内 核 组 成 。PowerPC 450 是 广泛 应 用 于 骨 入 式 系统 中 的 流水 式 双 发 射 超标 量 处 
理 器 。 每 个 内 核 有 一 对 双 发 射 浮 点 单元 ， 两 个 内 核 一 个 时 钟 周 期 总 共 可 以 发 射 4 条 浮 点 指令 。 
浮 点 单元 经 过 扩充 引入 了 一 些 SIMD 类 型 的 指令 ， 这 些 指令 有 时 对 使 用 阵列 的 科学 计算 有 所 
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帮助 。 当 然 因 为 没有 性 能 上 的 要 求 ， 这 个 芯片 显然 不 是 一 种 顶级 的 多 处 理 器 。 
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聚集 屏障 南 10GB 以 太 网 下 
图 8-38 BlueGene/P 定制 的 处 理 器 芯片 


wH ERA ZK cache。 第 一 级 由 分 开 的 32KB 指令 cache 和 32KB 数据 cache 构成 。 第 
二 级 是 2KB 统一 的 cache。 与 其 说 第 二 级 cache 是 真正 的 cache， 还 不 如 说 它 是 预 取 缓冲 区 。 
它们 互相 监听 并 保持 cache 一 致 性 。 第 三 级 是 统一 的 4MB 共享 cache， 并 为 第 二 级 cache 提供 
输入 。 四 个 处 理 器 共享 对 两 个 4MB 第 三 级 cache 模块 的 访问 。 四 个 CPU 中 的 第 一 级 cache 存 
在 cache 一 致 性 的 问题 ， 当 共享 的 内 存 块 驻 留 在 多 于 一 个 cache 中 时 ， 某 个 处 理 器 对 这 个 内 存 
块 的 访问 立即 就 对 其 他 三 个 处 理 器 可 见 。 如 果 内 存 访问 在 第 一 级 cache 缺失 但 第 二 级 cache fit 
中 要 花费 大 约 11 个 时 钟 周期 。 如 果 第 二 级 cache 缺失 但 第 三 级 cache 命中 要 花费 大 约 28 个 时 
钟 周期 。 最 后 ， 如 果 第 三 级 cache 缺失 ， 那 么 就 必须 要 访问 主 DRAM， 花费 的 就 大 约 是 75 个 
时 钟 周期 。 

4 个 CPU 通过 高 带宽 总 线 连 接 到 三 维 环 网 络 ， 这 需要 6 THER, 即 : 上 、 下 、 北 、 南 、 
东 和 西 。 另 外 ， 每 一 个 处 理 器 都 有 一 个 通 往 聚 集 网 络 的 端口 ， 用 于 向 所 有 处 理 器 广播 数据 。 
屏障 端口 用 于 加 速 同 步 操作 ， 能 够 快速 访问 专用 的 同步 网 络 。 

在 下 面 一 级 ，IBM 设计 了 一 种 特制 的 卡 ， 如 图 8-38 所 示 ， 卡 上 有 2GB 的 DDR2 DRAM, 
芯片 和 卡 分 别 如 图 8-39a ~ b 所 示 。 

这 些 卡 安装 在 板 上 ， 每 板 有 32 块 卡 ， 因 此 每 板 也 就 有 32 个 芯片 (也 就 有 128 个 CPU )。 
由 于 每 块 卡 包 含 2GB 的 DRAM， 因 此 每 块 板 上 就 有 64GB 的 DRAM。 图 8-39c 所 示 的 就 是 
这 样 的 一 块 板 。 接 下 来 的 一 级 ，32 块 板 插 人 机 架 里 ， 每 个 机 架 可 达 4096 A CPU, HAN 
图 8-39d 所 示 。 

最 后 ， 整 个 系统 由 72 个 机 架 组 成 ， 带 有 294 912 个 CPU， 如 图 8-39e 所 示 。 因 为 PowerPC 
450 每 个 周期 最 多 可 以 发 射 6 条 指令 ， 所 以 完整 的 BlueGene/P 系统 每 个 时 钟 周 期 最 多 可 发 射 
1 769 472 条 指令 。 以 850MHz 运行 ， 意 味 着 系统 性 能 可 达到 1.504 千 万 亿 次 浮 点 运算 /每 秒 。 
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但 是 ， 数 据 冲突 、 内 存 延 迟 以 及 并 行 性 的 缺失 导致 系统 实际 的 吞吐 率 要 低 得 多 。 在 BlueGene/P 
上 实际 运行 的 程序 的 性 能 最 多 也 就 能 达到 1 千 万 亿 次 浮 点 运算 / 秒 。 
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图 8-39 BlueGene/P 


CPU 除了 访问 它 自己 所 在 卡 上 的 2GB 内 存 之 外 不 能 直接 访问 其 他 内 存 ， 从 这 一 点 上 来 看 
BlueGene/P 是 一 个 多 计算 机 系统 。 虽 然 处 理 器 芯片 内 的 CPU 有 共享 内 存 ， 但 板 上 、 架 上 以 及 
系统 层次 上 的 处 理 器 都 不 共享 相同 的 内 存 。 另 外 ， 因 为 没有 本 地 磁盘 进行 换 页 所 以 不 用 进行 
页 面 调度 。 取 而 代 之 的 是 系统 具有 1152 个 IO 节点 ， 用 来 连接 磁盘 和 其 他 外 部 设备 。 

总 而 言 之 ， 虽 然 这 个 系统 特别 巨大 ， 但 它 还 是 相当 简单 的 ， 除 了 高 密度 封装 这 个 领域 之 
外 很 少 应 用 新 的 技术 。 保 持 系 统 简单 的 原因 就 在 于 它 的 目标 是 使 得 系统 具有 高 可 靠 性 和 可 用 
性 。 因 此 ,大 量 细心 的 工程 师 要 进行 电源 供应 、 风 扇 、 降 温和 布线 工作 ， 目 标 就 是 保证 10 天 
的 平均 无 故障 时 间 。 

为 了 连接 所 有 的 芯片 ， 就 需要 可 扩展 的 、 高 性 能 的 互联 网 络 。 系 统 设 计 中 采用 了 
72x32x32 的 三 维 环 结构 。 因 此 ， 每 个 CPU 需要 6 个 连接 ， 逻辑 上 它 要 连接 上 面 、 下 面 的 
两 个 CPU、 东 面 、 西 面 的 两 个 CPU 以 及 南面 、 北 面 的 两 个 CPU。 这 样 的 6 个 连接 在 
图 8-38 中 分 别 标记 为 东 、 西 、 北 、 南 、 上 和 下 。 物 理 上 来 看 ， 每 个 机 架 的 1024 个 节点 就 是 
一 个 8x8x16 的 三 维 环 。 邻 接 的 两 个 机 架构 成 8x8x32 的 三 维 环 。 同 一 排 的 四 对 机 架构 成 
8 x 32x32 的 三 维 环 。 最 后 ， 所 有 9 排 机 架构 成 72 x 32 x 32 的 三 维 环 。 

所 有 的 链接 都 是 这 样 点 对 点 以 3.4Gbps 的 速度 传送 数据 。 由 于 73 728 个 节点 中 的 每 一 个 
都 有 三 条 链接 连 到 “更 高 ”编号 的 节点 ， 每 一 维 一 个 链接 ， 系 统 的 总 带宽 可 达到 752 万 亿 次 / 
秒 。 本 书 的 信息 量 大 约 是 3 亿 位 ， 包括 所 有 PostScript 格式 的 图 片 ， 这 样 算 来 BlueGene/P 每 
秒 能 够 移动 250 万 本 书 的 拷贝 。 这 些 信息 移动 到 哪里 ， 谁 需要 它们 作为 留 给 读者 的 练习 。 

三 维 环 上 的 通信 通过 虚拟 直通 (virtual cut through) 寻 径 方式 进行 。 这 种 技术 同 存储 转发 
分 组 交换 有 点 类 似 ， 只 是 转发 之 前 不 存储 整个 分 组 。 一 旦 一 个 字 节 到 达 一 个 节点 ， 它 就 可 以 
沿 着 路 径 转 发 到 下 一 个 节点 ， 不 必 等 待 整个 分 组 都 到 达 。 动 态 ( 自 适应 ) 和 确定 性 ( 固定 的 ) 
路 由 都 可 以 。 芯 片上 使 用 少量 特殊 的 硬件 来 实现 虚拟 直通 。 
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除了 用 于 数据 传输 的 三 维 环 之 外 ， 还 使 用 了 其 他 四 个 通信 网 络 。 第 二 个 就 是 树 形 组 合 网 
络 。 诸 如 BlueGene/P 这 样 高 度 并 行 的 系统 的 很 多 操作 都 需要 所 有 的 节点 来 参与 。 例 如 ， 考 虑 找 
到 一 组 65 536 个 值 中 的 最 小 值 ， 每 个 节点 保存 一 个 值 。 组 合 网 络 将 所 有 节点 连接 成 一 棵 树 ， 两 
个 节点 总 是 把 它们 各 自 的 值 发 送 到 更 高 一 层 的 节点 ， 高 层 节点 选择 出 较 小 的 一 个 并 向 上 传递 。 
采用 这 种 方法 到 达 根 节点 的 流量 与 所 有 65 536 个 节点 都 发 送 消息 到 根 节点 相 比 将 大 为 减少 。 

第 三 个 网 络 是 为 了 全 局 屏障 和 中 断 。 某 些 算法 要 多 阶段 工作 ， 每 个 节点 都 需要 等 待 所 有 
其 他 节点 都 完成 了 相应 阶段 的 工作 才能 进入 下 一 个 阶段 。 屏 障 网 络 允 许 软件 定义 这 些 阶 段 并 
提供 一 种 方式 来 挂 起 所 有 完成 本 阶段 任务 的 计算 CPU， 直 到 所 有 的 CPU 都 完成 本 阶段 任务 。 
这 时 所 有 的 CPU 才能 够 得 到 释放 。 中 断 也 利用 这 个 网 络 进行 工作 。 

第 四 和 第 五 个 网 络 都 使 用 千 兆 以 太 网 。 其 中 一 个 网 络 连接 IO 节点 和 位 于 BlueGene/P 系 
统 之 外 的 文件 服务 器 ， 还 要 负责 接 人 互联 网 。 另 外 一 个 网 络 用 于 进行 系统 调试 。 

每 个 CPU 节点 都 运行 一 个 小 的 、 定 制 的 、 轻 量 级 的 内 核 ， 支 持 单 用 户 和 单 进程 。 进 程 至 
多 有 4 个 线程 ， 节 点 上 的 每 个 CPU 运行 一 个 线程 。 这 样 简 单 的 结构 是 为 了 保证 高 性 能 和 高 可 
靠 性 而 设计 的 。 

为 了 更 加 可 靠 ， 应 用 软件 可 以 调用 库 过 程 来 设置 检查 点 。 一 旦 所 有 未 完成 的 消息 从 网 络 
中 清除 ， 就 要 设置 一 个 全 局 检查 点 并 进行 存储 ， 这 样 当 系统 发 生 故 障 时 ,作业 可 以 从 检查 点 
重新 开始 ， 而 不 用 从 头 开始 。L/O 节点 运行 传统 的 Linux 操作 系统 并 支持 多 进程 。 

开发 下 一 代 BlueGene 系统 的 工作 正在 继续 进行 ， 命名 为 BlueGene/Q。 新 系统 预计 在 
2012 年 上 线 运 行 ， 新 系统 中 每 个 计算 芯片 上 将 集成 18 个 处 理 器 ， 具 有 同时 支持 更 多 线程 的 
特性 。 这 两 项 改进 能 够 大 幅 提升 每 个 时 钟 周期 系统 能 够 执行 指令 的 数量 。 新 系统 的 性 能 预计 
可 以 达到 20 千 万 亿 次 浮 点 运算 / 秒 。 关 于 BlueGene/P 的 更 多 信息 可 以 参考 Adiga 等 (2002 )、 
Almasi “ (2008 )、Almasi 等 (2003a, 2003b), Blumrich “ (2005) 以 及 IBM ( 2008 )。 

2. Red Storm 

作为 研究 MPP 的 第 二 个 例子 ， 我 们 来 看 一 下 Sandia 国家 实验 室 的 Red Storm ( 也 称 为 
Thor’ s Hammer ) 机 器 。Sandia 由 Lockheed Martin 领导 ， 为 美国 能 源 部 做 保密 和 非 保 密 的 工 
作 。 一 些 保 密 工 作 涉 及 核武 器 的 设计 和 模拟 ， 这 些 都 是 计算 高 度 密集 的 工作 。 

Sandia 进入 这 一 业务 领域 已 经 很 长 时 间 了 ， 多 年 来 建造 了 很 多 领先 的 超级 计算 机 。 几 十 [626 
年 来 ， 虽然 它 专 注 于 向 量 超级 计算 机 ， 但 最 终 技 术 和 经 济 的 原因 使 得 MPP 的 成 本 效率 更 高 。 
到 2002 年 ， 当 时 流行 的 名 为 ASCI Red 的 MPP 有 点 落伍 了 。 尽 管 它 具 有 9460 个 节点 , 但 总 
共 只 有 1.2TB 的 内 存 和 12.5TB 的 磁盘 空间 ， 系 统 的 吞吐 率 仅 为 3 万 亿 次 浮 点 运算 / 秒 。 因 此 
在 2002 年 的 夏天 ，Sandia 选择 了 具有 悠久 历史 的 超级 计算 机 制造 商 Cray Research 公司 来 建 
造 ASCI Red 的 替代 品 。 

替代 机 器 在 2004 年 8 月 交付 使 用 ， 对 于 这 样 大 型 的 机 器 来 说 设计 和 实现 周期 都 是 非常 短 
的 。 快 速 设计 和 交付 的 原因 是 Red Storm 除了 用 于 进行 路 由 的 一 个 定制 芯片 之 外 ， 几 乎 所 有 
部 件 都 使 用 了 现成 的 产品 。2006 Æ, Red Storm 更 新 了 处 理 器 ， 下 面 我 们 就 详细 介绍 这 个 更 
新 过 的 Red Storm。 

Red Storm 选用 的 CPU 是 AMD 的 2.4GHz 的 双核 Opteron。Opteron 的 几 个 关键 特性 使 
得 它 成 为 首选 。 第 一 原因 就 是 它 有 三 种 操作 模式 。 在 传统 模式 下 ， 它 能 够 运行 未 经 修改 的 标 
准 Pentium 二 进 制 程序 。 在 兼容 模式 下 ， 操 作 系 统 能 以 64 位 模式 运行 ， 寻 址 范围 可 达 24 内 
存 字 节 ， 但 应 用 程序 只 能 以 32 位 模式 运行 。 最 后 ， 在 64 位 模式 下 ， 整 个 机 器 都 是 64 位 并 且 
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所 有 程序 都 能 对 整个 64 位 地 址 空间 进行 寻找 。 在 64 位 模式 下 也 能 够 混和 与 协调 应 用 软件 : 
32 位 和 64 位 的 程序 可 以 同时 运行 ， 允 许 简 单 的 升级 方式 。 

Opteron 的 第 二 个 关键 特性 是 它 特别 关注 内 存 带 宽 问 题 。 近 些 年 CPU 变 得 越 来 越 快 ， 但 
内 存 的 速度 却 没 有 跟 上 ， 这 就 导致 了 当 第 二 级 cache 发 生 缺 失 的 时 候 出 现 大 量 时间 损 失 。 
AMD FE Opteron 中 集成 了 内 存 控制 器 ， 所 以 它 能 以 处 理 器 的 时 钟 速度 来 运行 ， 而 不 是 以 
内 存 总 线 的 速度 来 运行 ， 这 样 做 能 够 极 大 地 提高 内 存 性 能 。 内 存 控制 器 能 处 理 8 个 4GB 的 
DIMM， 这 样 每 个 Opteron 的 最 大 内 存 可 达 32GB。 在 Red Storm 系统 中 ， 每 个 Opteron 只 有 
2 ~ 4GB 内 存 。 然 而 ， 如 果 内 存 变 得 很 便宜 ， 毫 无 疑问 在 将 来 可 以 加 上 更 多 的 内 存 。 使 用 双 
核 Opteron 可 以 将 系统 原生 计算 能 力 提高 一 倍 。 

A Opteron 都 有 自己 专用 的 网 络 处 理 器 ， 称 为 Seastar， 由 IBM 制造 。Seastar 是 很 关 
键 的 部 件 ， 因 为 几乎 所 有 处 理 器 间 的 数据 流量 都 要 经 过 Seastar 网 络 。 没 有 这 些 专用 芯片 提供 
的 高 速 互联 网 络 ， 系 统 很 快 就 会 陷入 数据 的 泥潭 。 

尽管 Opteron 是 现成 的 商用 人 处 理 器 ， 但 Red Storm 的 封装 还 是 定制 的 。 每 块 Red Storm 板 
H 4^ Opteron, 4GB 的 内 存 ，4 个 Seastar、 一 个 RAS( 可靠 性 、 可 用 性 和 服务 ) 处 理 器 和 
一 个 100Mbps 的 以 太 网 芯片 构成 ， 如 图 8-40 所 示 。 


100 Mbps 以 太 网 Seastar 





PLR 
图 8-40 Red Storm 组 件 的 封装 


8 块 板 为 一 组 插 接 到 背 板 上 ， 然 后 再 接 人 到 卡 架 上 。 每 个 机 架 有 三 个 卡 架 ， 总 共 可 以 有 
96 个 Opteron， 另 外 还 要 配 上 必需 的 电源 供应 和 风扇 。 整 个 系统 包括 108 个 机 架 ， 作 为 计算 节 
点 ， 总 计 有 10 368 个 Opteron ( 20 736 个 处 理 器 ) 和 10TB 的 SDRAM, 每 个 CPU 只 能 访问 自 
己 的 SDRAM。 没 有 共享 的 内 存 。 理 论 上 系统 的 计算 能 力 可 以 达到 41 万 亿 次 浮 点 运算 / 秒 。 

Opteron CPU 之 间 的 互联 由 定制 的 Seastar 路 由 器 完成 ， 每 个 Opteron CPU 有 一 个 路 由 
器 。 这 些 路 由 器 连接 成 27x 16 x 24 的 三 维 环 ， 每 个 网 点 有 一 个 Seastar。 每 个 Seastar 有 7 条 
双向 24Gbps 的 链 路 ， 分 别 连 到 北 、 东 、 南 、 西 、 上 、 下 和 Opteron。 相 邻 网 点 之 间 的 传送 时 
间 是 2 微 秒 。 穿 越 整个 计算 节点 组 只 需要 5 微 秒 。 使 用 100Mbps 以 太 网 的 另外 一 个 网 络 用 于 
提供 服务 和 进行 系统 维护 。 

除了 108 个 计算 机 架 以 外 ， 系 统 还 有 用 来 放置 VO 和 服务 处 理 器 的 16 个 机 架 。 这 些 机 如 
每 个 上 面 有 32 个 Opteron。 总 共 512 个 CPU 分 成 两 部 分 ，256 个 用 于 IJO，256 个 用 于 服务 。 
其 他 空间 用 于 磁盘 ， 磁 盘 按 照 RAID3 Al RAIDS 方式 进行 组 织 ， 具 有 奇偶 驱动 器 和 热 备份 。 
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整个 磁盘 空间 是 240TB。 全 部 的 磁盘 带宽 能 够 达到 50GB/s。 

系统 分 为 保密 和 非 保密 两 部 分 ， 两 部 分 可 以 使 用 交换 机 进行 连接 和 分 离 。 保 密 部 分 共有 
2688 个 计算 CPU， 非 保密 部 分 也 有 2688 个 计算 CPU。 剩 余 的 4992 个 计算 CPU 可 以 在 两 部 分 
之 间 进 行 切换 ， 如 图 8-41 所 示 。2688 个 保密 的 Opteron CPU 每 个 都 有 4GB 的 内 存 ; 所 有 其 他 
的 CPU 每 个 只 有 2GB AFF. VO 和 服务 处 理 器 也 拆 分 成 两 部 分 供 保密 和 非 保 密 的 两 部 分 使 用 。 


VO 和 服务 节点 交换 机 计算 节点 


og 口 口 口 口 口 口 口 PP 同日 口 口 口 口 口 口 日 口 唱 口 日 口 o000000 DA 
oa DoooooopPqoooooooooDoOoDOO 口 口 口 口 口 口 口 50 
oo DONOOOOOPAIOOODOOOO00O0O000O 日 口 口 口 口 日 品 6a 
aoa HDooooooesoo000000000000 goo00000g0 oo 





28 个 非 保密 机 架 ”52 个 可 切换 机 架 28 个 非 保密 机 架 
er (26884+Opterons)  (49924+Opterons ) (2688 个 Opterons) ee 


8-41 从 正 上 方 来 看 Red Storm 系统 


系统 所 有 的 东西 都 安放 在 一 个 专用 的 2000m 新 大 楼 里 。 大 楼 和 位 置 在 设计 时 就 考虑 了 未 
来 的 需要 ， 系 统 最 多 可 以 升级 为 30 000 个 CPU。 计算 节点 使 用 1.6MW 的 电力 ; 磁盘 也 需要 
上 兆 瓦 的 电力 。 加 上 风扇 和 空调 ， 整 个 系统 使 用 的 电力 达 3.3MW。 

此 计算 机 系统 硬件 和 软件 的 成 本 是 9 千 万 美元 。 大 楼 和 冷却 系统 的 成 本 要 9 百 万 美元 ， 
所 以 整个 系统 的 成 本 接近 1 亿美 元 ， 虽然 某 些 是 一 次 性 的 工程 成 本 。 但 如 果 你 想 订购 一 个 完 
全 一 样 的 系统 ， 那 么 6 千 万 美元 应 该 是 一 个 差不多 的 数字 。Cray 打算 销售 系统 的 精简 版 本 给 
其 他 政府 和 商业 用 户 ， 精 简 版 系统 使 用 的 名 字 是 X3T。 

计算 节点 运行 一 个 称 为 catamount 的 轻 量 级 内 核 。UO 和 服务 节点 运行 普通 的 vanilla 
Linux 系统 ， 外 加 一 些 对 MPI (本 章 后 面 会 介绍 ) 的 支持 。RAS 节点 运行 Linux 内 核 。ASCI 
Red 的 昂贵 软件 还 可 以 应 用 在 Red Storm 中 ， 包 括 CPU 分 配器 、 调 度 器 、MPI 库 、 数 学 库 以 


及 应 用 程序 等 。 

这 么 大 的 一 个 系统 实现 高 可 靠 性 是 
很 重要 的 。 每 块 板 都 有 一 个 RAS 处 理 器 
来 进行 系统 维护 ， 还 有 一 些 其 他 的 特殊 
设备 。 目 标 就 是 达到 50 个 小 时 的 平均 无 
故 障 时 间 (Mean Time Between Failure, | 
MTBF )。ASCI Red 具有 硬件 900 小 时 的 


平均 无 故障 时 间 ， 但 苦恼 的 是 操作 系统 每 
40 小 时 月 演 一 次 。 尽 管 新 的 硬件 比 老 的 硬 
FEMTE, 但 软件 还 是 弱点 。 

有 关 Red Storm 更 多 的 信息 可 以 参考 
Brightwell 等 (2005, 2010). 

3. BlueGene/P 5 Red Storm 的 比较 

Red Storm 和 BlueGene/P 某 些 方面 比 
较 类 似 ， 但 某 些 方面 也 差别 很 大 ， 所 以 把 
它们 的 一 些 关 键 的 参数 互相 进行 比较 会 非 
常 有 趣 ， 比 较 的 参数 列表 如 图 8-42 所 示 。 图 8-42 BlueGene/P $ Red Storm 的 比较 
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这 两 台 机 器 是 在 同一 时 期 建造 的 ， 所 以 它们 的 区 别 不 是 在 于 技术 上 ， 而 是 在 于 设计 者 
不 同 的 观点 ， 某 种 程度 上 也 因为 制造 者 是 BM 和 Cray 而 有 所 差别 。BlueGene/P 从 一 开始 就 
是 按照 商用 机 器 来 设计 的 ，IBM 公司 希望 能 够 大 量 地 卖 给 生物 技术 、 制 药 和 其 他 公司 。Red 
Storm 是 根据 与 Sandia 的 合同 专门 定制 的 ， 当 然 Cray 公司 也 计划 为 了 销售 而 设计 和 制造 精简 
版 本 的 机 器 。 

IBM 的 策略 很 清楚 : 充分 利用 现存 的 核心 技术 生产 大 量 便宜 的 定制 芯片 ， 以 较 低 的 速 
度 来 运行 ， 并 使 用 速度 适中 的 通信 网 络 将 大 量 的 芯片 连接 起 来 。Sandia 的 策略 也 很 清楚 : 使 
用 现成 的 高 性 能 64 位 CPU， 设 计 出 速度 极 快 的 定制 路 由 芯片 ， 使 用 大 量 的 内 存 从 而 得 到 比 
BlueGene/P 性 能 更 好 的 节点 ， 这 样 需 要 的 节点 数目 更 少 而 且 互相 之 间 的 通信 速度 更 快 。 

这 些 决策 的 结果 对 封装 也 带 来 了 一 定 的 影响 。 因 为 [BM 制造 的 定制 芯片 将 处 理 器 和 路 由 
器 结合 到 一 起 ， 它 就 具有 较 好 的 封装 密度 : 每 个 机 架 上 可 以 有 4096 个 CPU。 因 为 Sandai 每 
个 节点 使 用 了 未 经 修改 的 现 有 CPU 芯片 和 2 ~ 4GB 的 内 存 ， 每 个 机 架 上 只 能 放置 192 个 计 
算 CPU。 这 样 的 结果 就 是 Red Storm 要 比 BlueGene/P 占用 更 多 的 空间 ， 使 用 更 多 的 电能 。 

在 国家 实验 室 计算 的 奇异 世界 里 ， 性 能 就 是 一 切 。 从 这 个 方面 来 讲 ，BlueGene/P 是 胜利 
者 ， 结 果 是 1000 万 亿 次 浮 点 运算 / 秒 对 124 万 亿 次 浮 点 运算 / 秒 , 但 是 Red Storm 的 设计 是 
可 扩展 的 ， 如 果 再 加 上 更 多 的 Opteron，Sandia 的 性 能 也 将 大 幅 提高 。IBM 能 够 通过 提高 一 点 
时 钟 频 率 来 进行 反击 ( 850MHz 的 时 钟 频率 不 能 真正 反映 当前 的 技术 水 平 )。 总 之 ，MPP 超级 
计算 机 还 远 没有 达到 物理 极限 ， 今 后 仍 将 继续 不 断 成 长 。 


8.4.3 ”集群 计算 


另 一 种 多 计算 机 系统 是 集群 计算 机 (cluster computer ) ( Anderson 等 ,1995;Martin 等 ,1997 )。 
一 般 来 说 ， 集 群 计算 机 是 由 数 百 台 PC 机 或 者 工作 站 通过 商用 网 络 连接 在 一 起 构成 的 。MPP 
和 和 集群 之 间 的 区 别 类 似 于 大 型 机 和 PC 机 的 区 别 。 大 型 机 和 PC 机 都 有 CPU、 内存、 磁盘 、 操 
作 系 统 等 。 只 不 过 大 型 机 的 组 件 速度 快 一 些 而 已 (操作 系统 除外 )， 但 是 它们 的 质量 不 同 ， 使 
用 和 管理 也 不 同 。MPP 和 集群 之 间 的 区 别 与 之 类 似 。 

从 发 展 历史 来 看 ，MPP 中 特殊 的 部 分 在 于 它 的 高 速 互 联网 络 ， 但 是 最 近 出 现 的 现成 商用 
高 速 互 联网 络 已 经 开始 弥补 这 一 鸿沟 了 。 总 而 言 之 ， 集 群 有 可 能 把 MPP 挤 到 墙 脚 去 ， 就 像 
PC 机 把 大 型 机 变 成 无 人 问津 的 神秘 之 物 一 样 。MPP 的 主要 用 途 将 是 高 投入 的 超级 计算 机 ， 不 
惜 一 切 地 追求 峰值 性 能 。 如 果 你 考虑 价格 的 话 ， 那 么 是 不 可 能 负担 得 起 的 。 

集群 系统 有 许多 种 ， 其 中 占 主 导 地 位 的 主要 有 两 种 : 集中 式 的 和 分 散 式 的 。 集 中 式 的 
集群 系统 是 装 在 一 个 大 机 架 上 的 工作 站 或 者 PC 机 的 集群 。 有 时 候 它们 排列 得 很 紧密 以 节省 
物理 空间 和 光纤 长 度 。 一 般 来 说 ， 这 些 计算 机 的 种 类 都 是 相同 的 而 且 除 了 网 卡 和 磁盘 之 外 
没有 其 他 的 外 设 。PDP-11 和 VAX 的 设计 者 Gordon Bell 把 这 种 系统 称 为 无 领导 者 的 工作 站 
(headless workstation) ( 因为 它们 没有 所 有 者 )。 我 们 把 这 种 系统 称 为 无 领导 者 的 COW， 但 是 
考虑 到 这 种 称呼 可 能 会 伤害 许多 COW 系统 ， 因 此 我 们 使 用 这 个 术语 是 很 有 节制 的 。 

分 散 式 的 集群 计算 机 是 由 分 布 在 一 座 大 楼 或 者 校园 里 的 工作 站 或 者 PC 机 组 成 的 。 其 中 
大 部 分 计算 机 在 一 天 中 的 大 部 分 时 间 是 处 于 空闲 状态 的 ， 特 别 是 在 晚上 。 通 常 它 们 是 通过 局 
域 网 连接 的 。 一 般 来 说 ， 这 些 计 算 机 的 种 类 是 不 同 的 而 且 有 充足 的 外 设 ， 虽然 有 1024 个 鼠标 
的 集群 并 不 比 没有 鼠标 的 集群 性 能 更 好 。 最 重要 的 是 ， 这 些 计 算 机 是 有 所 有 者 的 ， 他 们 对 自 
己 的 计算 机 很 有 感情 而 且 不 愿意 天 文学 家 在 他 们 的 计算 机 上 模拟 宇宙 大 爆炸 。 使 用 空闲 的 工 
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作 站 组 成 集群 意味 着 当 计 算 机 的 主人 要 求 回收 他 们 的 计算 机 时 ， 要 把 正在 运行 的 任务 在 计算 
机 之 间 转 移 。 任 务 转移 是 可 以 实现 的 ， 但 是 会 增加 软件 的 复杂 性 。 

集群 通常 是 小 规模 的 ,十 几 台 PC 到 500 台 PC 都 可 能 。 然 而 ， 也 可 能 使 用 现成 的 PC 建立 
大 规模 集群 Google 就 是 这 么 做 的 ， 而 且 采 用 一 种 有 趣 的 方式 ,我 们 下 面 就 来 看 看 它 是 怎么 做 的 。 

Google 

Google 是 在 互联 网 上 查找 信息 时 非常 受 欢 迎 的 搜索 引擎 。 虽 然 它 受 欢 迎 的 部 分 原因 是 由 
于 它 简单 的 界面 和 快速 的 响应 时 间 ， 但 Google 搜索 引擎 的 设计 可 决 不 简单 。 从 Google 的 角 
度 来 看 ， 搜 索引 擎 的 问题 在 于 要 发 现 、 索 引 和 存储 整个 World Wide Web 超过 400 亿 个 页 面 )， 
要 能 够 在 0.5 秒 的 时 间 内 搜索 所 有 的 东西 ， 而 且 还 要 一 天 24 小 时 地 处 理 来 自 世 界 各 地 每 秒 钟 
成 千 上 万 次 的 查询 。 此 外 ， 搜 索引 擎 还 永远 不 能 停 下 来 ， 即 使 遇 到 地 震 、 电 力 故障 、 通 信 中 
断 、 硬 件 失 效 以 及 软件 错误 。 当 然 ， 还 要 尽 可 能 低 成 本 地 完成 这 些 事 情 。 克 隆 Google 对 读者 
而 言 绝对 不 是 一 个 好 的 练习 题 。 

那么 Google 是 如 何 工作 的 呢 ? Hie, Google 操作 的 是 分 布 在 世界 各 地 的 数据 中 心 。 采 
用 这 种 方式 不 仅 当 地 震 破坏 一 个 数据 中 心 时 能 够 提供 备份 ， 而 且 当 人 们 通过 www.google.com 
进行 查找 的 时 候 ， 发 送 者 的 TP 地 址 将 被 检测 ， 从 而 提供 最 近 的 数据 中 心 的 地 址 ， 然 后 浏览 器 
将 查询 发 送 给 相应 的 数据 中 心 。 

每 个 数据 中 心 至 少 有 一 条 OC-48 (2.488Gbps ) 的 光纤 接 人 互联 网 ， 通 过 它 数据 中 心 能 够 
接收 碍 询 并 发 送 结果 ， 同 时 还 有 一 条 其 他 电信 供应 商 提供 的 OC-12 ( 622Mbps ) 的 备份 连接 ， 
在 主 通信 连接 发 生 故 障 的 情况 下 启用 备份 连接 。 所 有 的 数据 中 心 都 要 有 不 间断 电源 和 柴油 发 
电机 ， 从 而 在 发 生 电 力 故 障 的 时 候 能 保证 数据 中 心 正 常 运转 。 因 此 ， 虽 然 发 生 严 重 的 自然 灾 
害 时 搜索 引 警 的 性 能 会 受到 一 些 影响 ， 但 Google 仍然 能 够 保持 工作 状态 。 

要 想 更 好 地 理解 为 什么 Google 会 采用 这 样 的 体系 结构 ， 简 单 地 描述 一 下 提交 给 数据 中 心 
的 查询 的 处 理 过 程 可 能 会 有 所 帮助 。 当 查询 请 求 到 达 数 据 中 心 ( 如 图 8-43 中 的 第 1 步 ) 之 后 ， 





aardvark154,3016,... 
abacus973,67231.... 

abalone73403,89021.... 
labandon14783,63495,.. 
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aardvark 1242.5643 
abacus 8393,65837,... 
abalone 59343,93083.... 
abandon 4032394834... 
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图 8-43 Google 查询 的 处 理 过 程 
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负载 均衡 器 将 查询 发 送 给 多 个 查询 处 理 程序 中 的 一 个 (第 2 步 )， 再 并 行 发 送 给 拼写 检查 程 
序 (第 3 步 ) 和 广告 服务 程序 (第 4 步 )。 然后 在 索引 服务 器 上 并 行 对 检索 词 进行 查找 (第 5 
步 )。 这 些 服务 器 包含 着 Web 上 每 一 个 词 对 应 的 一 个 条 目 ， 每 个 条 目 列 出 包括 这 个 词 的 所 有 
文档 ( 网 页 、PDF 文件 、PowerPoint 演示 稿 等 )， 并 且 按 照 网 页 等 级 (page rank) 进行 排序 。 
虽然 网 页 等 级 是 由 复杂 ( 和 秘密 ) 的 公式 决定 的 ， 但 网 页 的 链接 数 和 它们 自身 的 等 级 扮演 了 
重要 的 角色 。 

为 了 获取 更 高 的 性 能 ， 索 引 被 分 成 称 为 碎片 (shard ) 的 多 块 ， 这 样 能 够 并 行 地 进行 检 
索 。 从 概念 上 来 讲 ， 碎 片 1 至 少 要 包含 索引 中 的 所 有 词 ， 每 个 词 后 面 跟着 包含 这 个 词 的 级 别 
最 高 的 z 个 文档 的 ID。 和 碎片 2 也 包含 所 有 的 词 以 及 包含 这 些 词 级 别 次 高 的 个 文档 的 ID， 依 
此 类 推 。 随 着 Web 的 增长 ， 为 了 能 够 更 好 地 并 行 搜 索 ， 这 些 碎片 今后 也 可 能 分 为 多 组 ， 检 索 
最 多 的 大 个 词 位 于 第 一 组 碎片 中 ， 后 面 的 大 个 词 位 于 第 二 组 碎片 中 , 依 此 类 推 。 

索引 服务 器 返回 一 组 文档 标识 符 (第 6 步 )， 然 后 这 些 标 识 符 根据 查询 的 布尔 属性 被 合 
并 。 例如， 如 果 查 找 的 是 digitalHeapybara+dance， 那 么 只 有 出 现在 全 部 三 组 中 的 文档 标识 符 
在 下 面 的 步骤 中 才 被 使 用 。 在 这 一 步 〈( 第 7 步 )， 围 绕 着 检索 词 ， 文 档 本 身 要 被 访问 来 抽取 它 
们 的 标题 、URL、 正 文摘 录 等 。 在 每 个 数据 中 心中 文档 服务 器 都 包含 着 整个 Web 的 很 多 拷贝 ， 
目前 有 数 百 T 的 数据 。 为 了 增强 并 行 检 索 ， 文 档 也 被 分 成 碎片 。 虽 然 处理 一 个 查询 不 需要 读 
取 整 个 Web (或 者 只 是 读 取 索 引 服务 器 上 数 十 IT 的 数据 )， 但 是 每 个 查询 处 理 100MB 数据 是 
很 正常 的 事情 。 

当 结果 返回 给 查询 处 理 程序 (第 8 步 )， 找 到 的 页 面 按照 页 面 级 别 排序 。 如 果 检 查 到 可 能 
有 拼写 错误 (第 9 步 )， 那么 就 将 可 能 的 错误 显示 出 来 ,同时 加 入 广告 (第 10 步 )。 显示 客户 
的 广告 是 Google 赚钱 的 有 效 方式 ， 当 然 客 户 要 购买 他 们 感 兴趣 的 搜索 词 (例如 “hotel” 或 者 
“camcorder” 等 )。 最 后 ， 结 果 以 HTML (HyperText Markup Language ) 的 形式 作为 Web 页 面 
发 送 给 用 户 。 

有 了 这 些 背景 知识 ， 下 面 我 们 来 分 析 一 下 Google 的 体系 结构 。 当 面 对 着 海量 数据 、 大 规 
模 事 务 处 理 ， 并 且 需 要 高 可 靠 性 的 时 候 ， 大 多 数 公 司 都 从 市 场 上 购买 最 大 、 最 快 并 且 最 可 靠 
的 设备 。Google 所 做 的 恰恰 相反 ， 它 购买 便宜 的 、 性 能 一 般 的 PC， 而 且 是 大 量 购买 。Google 
使 用 这 些 PC 建造 了 世界 上 最 大 的 利用 现成 设备 构成 的 集群 。Google 决定 这 样 做 的 道理 很 简 
单 : 优化 性 能 价格 比 。 

这 种 决策 背后 的 逻辑 还 是 在 于 经 济 学 因素 : 普通 的 PC 机 非常 便宜 。 高 端 服务 器 不 便宜 ， 
大 规模 多 处 理 器 也 不 便宜 。 这 样 看 来 ， 高 端 服 务 器 虽然 性 能 比 普 通 的 PC 高 两 到 三 倍 ， 但 它 
的 价格 却 是 普通 PC 的 5 ~ 10 倍 ， 从 成 本 上 来 看 是 不 合算 的 。 

当然 ， 便 宜 的 PC 与 高 端 服务 器 相 比 可 能 发 生 更 多 的 故障 ， 但 是 后 者 也 会 发 生 故 障 ， 所 
以 无 论 使 用 哪 种 设备 Google 软件 还 是 要 对 发 生 故 障 的 硬件 进行 处 理 。 一 旦 使 用 了 容错 软件 ， 
它 根 本 不 在 乎 故障 率 每 年 是 0.5% 还 是 2%， 因 为 故障 都 是 要 进行 处 理 的 。Google 的 经 验 是 
PC 的 故障 率 是 每 年 2%。 超 过 一 半 的 故障 是 因为 磁盘 故障 ， 接 着 是 电力 供给 故障 ， 再 往 后 是 
RAM 芯片 故障 。 令 人 印象 深刻 的 是 CPU 从 来 不 发 生 故 障 。 实 际 上 ， 系 统 骨 溃 最 大 的 原因 根 
本 不 是 硬件 ; 而 是 软件 。 系 统 裔 溃 之 后 的 第 一 反应 就 是 重新 启动 ， 而 且 往 往 就 能 够 解决 问题 
《这 和 医生 所 说 的 “ 吃 两 片 阿司匹林 ， 然 后 睡觉 ”差不多 )。 

现在 典型 的 Google PC 由 2GHz 的 Intel CPU、4GB 内 存 、2TB 左右 的 硬盘 构成 ， 这 种 配 
置 和 一 个 老奶奶 偶尔 用 来 收发 邮件 所 买 的 机 器 差不多 。 唯 一 特殊 的 地 方 就 在 于 以 太 网 芯片 。 
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虽然 这 种 配置 的 PC 和 目前 的 技术 发 展 水 平 不 太一 致 ， 但 的 确 是 非常 便宜 。 这 些 PC 被 安装 在 
lu 高 的 格子 里 (KAS 厘米 厚 )， 然 后 40 个 堆 秋 在 一 个 19 英寸 高 的 机 架 上 ， 每 个 机 架 前 部 
可 以 放 40 台 ， 后 部 还 可 以 放 40 台 ， 一 个 机 架 总 共 可 以 安放 80 台 PC。 机 架 上 的 PC 通过 以 
太 网 交换 机 连接 起 来 ， 交 换 机 内 艇 在 机 架 内 部 。 数 据 中 心 的 机 架 之 间 也 是 通过 以 太 网 交换 机 
连接 起 来 ， 每 个 数据 中 心 都 配 有 互 为 宛 余 的 两 台 交换 机 ， 当 某 台 交换 机 发 生 故障 时 另 一 台 能 
够 继续 工作 。 

典型 的 Google 数据 中 心 的 布局 如 图 8-44 所 示 。 接 人 的 高 带宽 OC-48 光纤 连接 到 两 个 
128 端口 的 以 太 网 交换 机 。 类 似 地 ， 备 份 用 的 OC-12 光纤 也 连接 到 两 个 交换 机 。 接 入 光纤 使 
用 特殊 的 输入 卡 并 不 占用 128 个 以 太 网 端口 中 的 任何 一 个 。 


OC-12 光 纤 OC-48 光 纤 








128 端 口 
干粮 以 太 网 交换 机 





图 8-44 典型 的 Google 集群 


每 个 机 架 都 有 4 条 以 太 网 链 路 ， 两 条 连接 到 左 侧 的 交换 机 ， 两 条 连接 到 右 侧 的 交换 机 。 
采用 这 样 的 配置 ， 当 某 一 个 交换 机 发 生 故 障 的 时 候 系统 仍然 能 够 工作 。 由 于 每 个 机 架 都 有 到 
交换 机 的 4 条 线路 ( 前 部 40 A PC 接 出 两 条 ， 后 部 40 台 PC 接 出 两 条 )， 只 有 当 四 条 链 路 都 
发 生 故 障 或 者 两 条 链 路 发 生 故 障 同时 一 台 交 换 机 发 生 故 障 时 ， 机 架 才 算 脱 机 。 采 用 两 台 128 
端口 的 交换 机 ， 并 且 每 个 机 架 4 条 链 路 ， 最 多 可 以 支持 64 个 机 架 。 每 个 机 架 80 台 PC, 一 个 
数据 中 心 最 多 能 够 有 5120 台 PC。 当 然 ， 机 架 也 不 是 一 定 要 有 80 台 PC， 而 且 交 换 机 端口 也 
是 可 以 多 于 128 或 者 少 于 128; 前 面 所 给 出 的 只 是 Google 集群 的 一 些 典 型 的 数值 。 

功率 密度 也 是 一 个 关键 问题 。 典 型 的 PC 功率 是 120W， 每 个 机 架 的 功率 是 10kW, 4A 
机 架 需 要 大 约 3 平方 米 ， 这 样 维护 人 员 能 够 安装 和 移 除 PC， 并 且 使 空调 能 够 工作 。 这 些 参数 
得 出 的 功率 密度 要 超过 3000W/m?。 大 多 数 的 数据 中 心 都 被 设计 成 600 ~ 1200Wym2， 所 以 还 
要 采取 特殊 的 方法 对 机 架 进 行 降温 。 
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Google 认识 到 运行 大 规模 Web 服务 器 来 处 理 重 复 请 求 必须 处 理 好 三 个 关键 问题 。 

1) 部 件 可 能 出 故障 ， 所 以 必须 事先 做 好 计划 。 

2) 为 实现 高 吞吐 量 和 可 用 性 ， 可 以 采用 复制 机 制 。 

3 ) 优化 性 能 价格 比 。 

第 一 条 说 的 是 需要 有 容错 软件 。 即 使 使 用 最 好 的 设备 ， 当 部 件数 量 巨大 的 时 候 ， 某 些 部 
件 也 可 能 出 故障 ， 软 件 必须 能 够 进行 处 理 。 无 论 一 个 星期 发 生 一 次 故障 还 是 一 个 星期 发 生 两 
次 故障 ， 软 件 都 要 能 够 对 这 样 规模 的 系统 故障 进行 处 理 。 

第 二 条 指出 的 是 硬件 和 软件 都 要 高 度 元 余 。 这 样 不 仅 能 够 提高 容错 性 ， 而 且 能 够 提高 知 
吐 量 。 以 Google 为 例 ，PC 机 、 磁 盘 、 电 缆 以 及 交换 机 都 有 多 个 副本 。 此 外 ， 索 引 和 文档 被 
分 成 碎片 ， 这 些 碎片 在 每 一 个 数据 中 心 都 有 副本 ， 而 且 数 据 中 心 本 身 还 有 自己 的 副本 。 

第 三 条 是 前 面 两 条 的 必然 结果 。 如 果 系 统 被 设计 成 能 够 处 理 各 种 故障 ， 那 么 购买 类 似 由 
SCSI 磁盘 构成 的 RAID 阵列 等 昂贵 的 部 件 就 是 一 个 错误 。 昂 贵 的 部 件 也 会 发 生 故 障 ， 那 么 花 
10 倍 的 价钱 减少 一 半 故 障 率 就 不 是 一 个 好 主意 。 最 好 还 是 买 10 倍 的 硬件 并 且 当 硬件 发 生 故 
障 时 进行 处 理 。 至 少 当 一 切 正常 工作 的 时 候 ， 更 多 的 硬件 可 以 带 来 更 好 的 性 能 。 

关于 Google 更 多 的 信息 可 以 参考 Barroso 等 (2013 ) 和 Ghemawat ( 2003 ) 等 人 的 相关 
工作 。 


8.4.4 多 计算 机 的 通信 软件 


为 了 处 理 进 程 间 通信 和 同步 多 计算 机 系统 编程 需要 特殊 的 软件 ， 通 常 采 用 一 些 库 函数 。 
本 节 我 们 将 简单 讨论 一 下 这 些 软件 。 在 大 部 分 情况 下 ， 相 同 的 软件 包 可 以 同时 运行 在 MPP 系 
统 和 集群 系统 上 ， 因 此 应 用 可 以 很 容易 地 在 平台 之 间 移 植 。 

基于 消息 传递 的 系统 一 般 都 有 两 个 或 者 更 多 的 独立 运行 的 进程 。 举 例 来 说 ， 一 个 进程 可 
以 生成 某 些 数 据 而 其 他 的 进程 可 以 使 用 这 些 数据 。 我 们 不 能 保证 发 送 者 发 送 数据 时 接收 者 已 
经 准备 好 ， 因 为 每 个 进程 都 运行 自己 的 程序 。 

大 多 数 消息 传递 系统 都 提供 两 个 原 语 (通常 是 库 函 数 调用 )，send 和 receive， 但 是 这 两 
个 原 语 可 能 有 多 种 不 同 的 语义 。 三 种 主要 的 语义 是 : 

1) 同步 消息 传递 。 

2) 带 缓冲 的 消息 传递 。 

3 ) 无 阻塞 的 消息 传递 。 

使 用 同步 消息 传递 (synchronous message passing ) 时 ， 如 果 发 送 方 执 行 完 send 后 接收 
方 没有 执行 receive， 那 么 发 送 方 将 会 阻塞 直到 接收 方 执行 receive， 这 时 消息 将 被 拷贝 到 接收 
方 。 当 发 送 方 在 调用 执行 完成 并 重新 获得 控制 权 之 后 ， 就 会 得 知 消息 已 经 被 发 送 并 被 正确 接 
收 了 。 这 种 方法 的 语义 最 简单 而 且 不 需要 任何 缓冲 机 制 。 其 主要 的 缺点 是 在 接收 方 接收 到 消 
息 并 发 回 确认 之 前 ,发送 方 将 一 直 阻塞。 

使 用 带 缓冲 的 消息 传递 (buffered message passing) 时 ， 当 消息 在 接收 方 准 备 好 之 前 发 出 
时 ， 就 会 被 缓存 在 某 个 地 方 ， 例如， 可 以 缓存 在 邮箱 中 ， 直 到 接收 方 把 它 取 走 。 因 此 ,使 用 
带 缓冲 的 消息 传递 时 ， 发 送 方 可 以 在 send 之 后 继续 执行 ， 即 使 接收 方正 在 忙于 做 别 的 事情 。 
因为 消息 实际 上 已 经 被 发 送出 去 了 ， 发 送 者 可 以 在 send 之 后 立即 使 用 消息 缓冲 区 。 这 种 机 制 
可 以 减少 发 送 者 等 待 的 时 间 。 一 般 来 说 ， 只 要 系统 发 送 了 该 消息 ， 发 送 方 就 可 以 继续 执行 了 。 


但 是 ， 发 送 方 无 法 保证 消息 是 否 被 正确 接收 。 即 使 通信 是 可 靠 的 ， 接 收 方 也 可 能 在 得 到 消息 
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之 前 崩 演 。 

使 用 无 阻塞 的 消息 传递 (nonblocking message passing ) 时 ， 发 送 方 在 执行 调用 之 后 可 以 
立即 继续 执行 。 使 用 这 种 机 制 时 ，send 调用 所 做 的 工作 只 是 告诉 操作 系统 在 有 空 的 时 候 把 消 
息 发 送出 去 。 因 此 ， 发 送 者 不 会 被 阻塞 。 该 机 制 的 缺点 是 当 发 送 者 执行 完 send 并 继续 执行 
时 ， 它 可 能 不 能 使 用 消息 缓冲 区 ， 因 为 该 消息 可 能 还 没有 发 送 。 当 然 可 以 使 用 某 种 方法 得 知 
何 时 可 以 使 用 消息 缓冲 区 。 一 种 方法 是 轮 询 系统 。 另 一 种 方法 是 当 缓冲 区 空闲 后 产生 一 个 中 
断 。 但 是 它们 都 会 增加 软件 的 复杂 性 。 

下 面 我 们 将 简单 讨论 可 以 用 于 大 部 分 多 计算 机 系统 的 流行 的 消息 传递 系统 : MPI。 

MPI 一 一 消息 传递 接口 

在 过 去 相当 长 的 一 段 时 间 里 ， 多 计算 机 系统 使 用 的 最 流行 的 通信 软件 包 是 并 行 虚拟 机 
( Parallel Virtual Machine, PVM ) ( Geist 等 ，1994 ; Sunderram,1990 )。 然 而， 在 最 近 几 年 
PVM 已 经 大 量 地 被 消息 传递 接口 (Messege-Passing Interface, MPI) 所 取代 。MPI 的 功能 
比 PVM 丰富 ， 也 相应 地 复杂 一 些 ， 和 了 PVM 相 比 ，MPI 的 函数 调用 多 、 调 用 的 选项 多 、 调 
用 的 参数 也 多 。1997 年 时 ，MPI 的 第 一 个 版 本 MPI-1 被 扩展 成 了 MPI-2。 下 面 我 们 简单 介绍 
MPI-1 (包括 了 所 有 要 点 )， 然 后 讨论 MPI-2 中 增加 的 内 容 。 关 于 MPI 更 详细 的 讨论 可 以 参考 
Gropp ® (1994 ) 和 Snir 等 ( 1996 )。 

All PVM 不 一 样 ，MPI 不 处 理 进 程 创 建 和 管理 工作 。 创 建 进程 的 工作 由 用 户 使 用 本 地 系 
统 调用 完成 。 进 程 被 创建 之 后 ， 就 被 加 入 静态 的 、 不 可 改变 的 进程 组 中 。MPI 就 使 用 这 些 进 
程 组 完成 工作 。 

MPI 是 基于 以 下 4 个 相互 正 交 的 概念 实现 的 : 通信 者 、 消 息 数据 类 型 、 通 信和 操作 和 虚拟 
拓扑 。 通 信者 (communicator ) 是 进程 组 加 上 下 文 。 上 下 文 是 标识 某 些 东西 的 标号 ， 比 如 一 
个 执行 阶段 。 在 发 送 和 接收 消息 的 时 候 ， 可 以 使 用 上 下 文 防止 无 关 消息 相互 干扰 。 

消息 支持 多 种 数据 类 型 包括 字符 类 型 、 短 整 型 、 整 型 、 长 整 型 、 单 精度 和 双 精 度 浮 点 数 
等 。 还 可 以 使 用 由 这 些 类 型 构造 出 的 派生 类 型 。 

MPI 支持 一 个 全 面 的 通信 操作 集合 。 其 中 用 于 发 送 消息 的 最 基本 的 操作 如 下 : 


MPI_Send(buffer, count, data_type, destination, tag, communicator) 


该 调用 将 向 destination 发 送 buffer "F AY count ® data type 类 型 的 数据 。tag 是 该 消息 的 标 
记 ， 接 收 者 可 以 只 接收 有 某 个 标记 的 消息 。 最 后 一 个 参数 用 于 说 明 目 的 进程 所 在 的 进程 组 
(destination 参数 只 是 一 个 指向 特定 组 的 进程 列表 的 索引 )。 相 应 的 接收 消息 的 调用 是 


MPI_Recv(&buffer, count, data_type, source, tag, communicator, &status) 


该 调用 将 通知 接收 方 寻找 从 定义 的 发 送 方 发 来 的 具有 定义 的 标记 和 类 型 的 消息 。 

MPI 支持 4 种 基本 的 通信 模式 。 模 式 1 是 同步 模式 ， 使 用 同步 模式 时 ， 接 收 方 没有 调用 
MPI Recv 之 前 发 送 方 不 能 开始 发 送 。 模 式 2 是 缓冲 模式 ， 使 用 该 模式 时 没有 刚才 的 限制 。 模 
式 3 是 标准 模式 ， 标 准 模式 可 以 用 同步 模式 实现 也 可 以 用 缓冲 模式 实现 。 模 式 4 是 准备 模式 ， 
使 用 这 种 模式 时 发 送 方 要 求 接收 方 是 可 用 的 ( 和 同步 模式 一 样 )， 但 是 并 不 做 检查 。 这 些 模式 
中 的 每 个 发 送 原 语 都 有 阻塞 和 无 阻塞 的 版 本 ， 因 此 一 共 就 有 8 个 不 同 的 原 语 。 而 接收 原 语 只 
有 两 种 : 阻塞 的 和 无 阻塞 的 。 

MPI 支 持 集群 通信 ,包括 广播 、 分 散 /聚集 、 完 全 交换 、 聚 合 和 屏障 。 在 各 种 形式 的 集 
群 通信 中 ， 进 程 组 中 的 所 有 进程 都 要 做 调用 并 使 用 相 容 的 参数 。 如 果 不 这 样 做 就 会 产生 错误 。 
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集群 通信 的 一 种 典型 的 形式 是 把 进程 组 织 成 一 棵 树 ， 消 息 从 叶子 节点 向 根 节点 传送 ， 每 步 都 
要 执行 一 定 的 处 理 ， 比 如 增加 值 或 者 取 最 大 值 等 。 

MPI 中 的 第 四 个 基本 概念 是 虚拟 拓扑 (virtual topology )， 使 用 虚拟 拓扑 时 可 以 把 进程 组 
织 成 树 、 环 、 网 格 、 圆 盘 和 其 他 的 拓扑 结构 。 这 样 一 种 安排 可 以 提供 一 种 命名 通信 路 径 的 方 
式 并 方便 了 通信 过 程 。 

MPI-2 增加 了 动态 进程 、 远 程 内 存 访 问 、 无 阻塞 的 集群 通信 ， 可 扩展 的 输入 /输出 支持 ， 
实时 处 理 和 其 他 一 些 新 特性 ， 详 细 的 讨论 超出 了 本 书 的 范围 。 在 科学 界 ，MPI 和 PVM 阵营 之 间 
的 战斗 进行 了 多 年 。 PVM 的 支持 者 说 PVM 学 起 来 容易 而 且 易于 使 用 。MPI 方 则 说 MPI 的 功能 
更 多 ， 他 们 还 指出 MPI 有 标准 化 组 织 定 义 的 标准 和 官方 定义 的 文档 。PVM 方 也 同意 这 一 点 并 
宣称 缺乏 完整 的 定义 并 不 是 缺点 。 所 有 的 争论 都 结束 的 时 候 ， 还 是 MPI 获得 了 最 后 的 胜利 。 


8.4.5 调度 


MPI 程序 员 可 以 很 容易 地 建立 一 些 需 要 多 个 CPU 和 固定 运行 时 间 的 作业 。 如 果 人 允许 集群 
能 够 接受 来 自 不 同 用 户 的 多 个 独立 的 请 求 ， 并 且 这 些 请 求 因 为 不 同 的 运行 时 间 从 而 需要 不 同 
数量 的 CPU， 这 个 时 候 集群 就 需要 有 一 个 调度 器 来 决定 什么 时 候 运行 哪个 作业 。 

在 最 简单 的 模型 中 ， 任 务 调 度 器 要 求 任 务 定义 需要 使 用 的 CPU。 任 务 按照 严格 的 FIFO 
次 序 执行 ， 如 图 8-45a 所 示 。 使 用 这 种 模型 时 ， 在 每 个 任务 开始 之 后 ， 都 要 检查 是 否 有 足够 
的 CPU 执行 输入 队列 中 的 下 一 个 任务 。 如 果 有 ， 就 执行 该 任务 ， 下 面 依 此 类 推 。 如 果 没 有 足 
够 的 CPU， 系 统 就 等 待 直 到 可 以 有 更 多 的 CPU 可 用 。 另 外 ， 虽 然 我 们 暗示 这 个 集群 有 8 个 
CPU， 但 它 也 可 能 有 128 个 CPU， 分 成 8 个 CPU 组 ， 每 组 有 16 个 CPU， 当然 也 可 以 使 用 其 


CPU 组 





a) FIFO b) 没有 队列 头 部 阻塞 c) 紧密 排列 
8-45 ”调度 集群 ， 图 中 的 阴影 部 分 表示 处 于 空闲 状态 的 CPU 


一 种 可 以 避免 队列 头 部 阻塞 的 较 好 的 调度 算法 可 以 跳 过 无 法 满足 的 任务 而 执行 第 一 个 可 
以 满足 的 任务 。 当 一 个 任务 结束 时 ， 将 按照 FIFO 次 序 检查 任务 队列 。 该 算法 的 执行 结果 如 
图 8-45b 所 示 。 

更 复杂 的 调度 算法 需要 每 个 提交 的 任务 定义 自己 的 要 求 ， 也 就 是 需要 的 CPU 个 数 和 总 
共 的 执行 时 间 。 使 用 这 些 信息 ， 任 务 调 度 器 可 以 紧密 地 安排 CPU 执行 时 间 。 特 别 是 白天 提交 
任务 供 晚 上 执行 时 紧密 地 安排 任务 可 以 有 更 高 的 效率 ， 因 此 任务 调度 器 预先 知道 所 有 的 信息 ， 
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可 以 按照 最 优 的 顺序 调度 任务 ， 如 图 8-45c 所 示 。 
8.4.6 ”应 用 层 的 共享 内 存 


从 我 们 举 的 例子 中 可 以 很 容易 得 出 结论 ， 多 计算 机 系统 和 多 处 理 器 系统 相 比 可 以 扩展 到 
更 大 的 规模 。 这 样 的 事实 使 得 多 计算 机 系统 不 得 不 开发 像 MPI 这 样 的 消息 传递 系统 。 许 多 程 
序 员 不 喜欢 这 种 模式 而 希望 使 用 共享 内 存 ， 即 使 这 种 共享 内 存 是 虚拟 的 。 实 现 这 一 目标 将 是 
世界 上 最 美好 的 事物 : 大 规模 的 、 便 宜 的 硬件 ( 至 少 每 个 节点 是 这 样 ) 加 上 编程 的 简单 性 。 
这 是 并 行 计算 领域 里 的 圣杯 。 

许多 研究 人 员 已 经 得 出 结论 : 体系 结构 层 的 共享 内 存 的 扩展 性 不 好 ， 需 要 其 他 的 方式 来 
实现 共享 内 存 。 从 图 8-21 中 我 们 可 以 看 出 可 以 在 其 他 层次 引入 共享 内 存 。 在 下 面 几 小 节 中 ， 
我 们 将 讨论 把 共享 内 存 引 和 多 计算 机 系统 编程 模型 的 几 种 方式 ， 但 不 包括 硬件 级 的 共享 内 存 。 

1. 分 布 式 共享 内 存 

基于 分 页 的 系统 是 一 种 应 用 层 的 共享 内 存 系统 。 它 出 现时 被 命名 为 分 布 式 共享 内 存 
( Distributed Shared Memory, DSM), DSM 的 原理 很 简单 ， 多 计算 机 系统 中 的 多 个 CPU 共享 
同一 个 分 页 的 虚拟 地 址 空间 。 在 最 简单 的 DSM 系统 中 ， 每 个 页 面 都 保存 在 某 个 CPU 的 内 存 
中 。 图 8-46a 是 一 个 分 布 在 4 个 CPU 中 的 由 16 个 页 面 组 成 的 共享 虚拟 地 址 空间 。 


由 16 个 页 面 构成 全 局 共享 虚拟 内 存 

















c) CPU 1 访问 了 页 面 10 之 后 的 状态 
网 络 


图 8-46 4 个 节点 的 多 计算 机 系统 中 由 16 个 页 面 组 成 的 虚拟 地 址 空间 ， 假 设 页 面 是 只 读 的 
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当 CPU 引用 位 于 自己 的 本 地 内 存 中 的 页 面 时 ， 无论 是 读 还 是 写 都 立即 执行 而 没有 任何 延 
时 。 但 是 ， 当 CPU 引用 远程 内 存 中 的 页 面 时 ， 会 发 生 缺 页 。 和 以 前 我 们 介绍 的 缺 页 不 同 ， 它 
并 不 到 磁盘 上 去 取 所 缺 的 页 面 ， 而 是 通过 运行 时 系统 或 者 操作 系统 向 持 有 该 页 面 的 节点 发 送 
一 条 消息 ， 要 求 该 节点 解除 对 此 页 面 的 映射 并 把 它 传送 给 缺 页 的 节点 。 页 面 到 达 之 后 ， 将 被 
映射 到 本 地 CPU 然后 重新 执行 缺 页 的 指令 ， 这 些 操作 和 我 们 以 前 介绍 的 缺 页 一 样 。 在 图 8-46b 
中 ， 我 们 看 到 的 是 CPU 0 在 页 面 10 上 发 生 缺 页 的 情况 : 该 页 面 从 CPU 1 移动 到 了 CPU 0。 

这 一 基本 思想 首先 在 IVY 中 得 到 了 实现 (Li 和 Hudak,1989 )。IVY 系统 是 第 一 个 实现 了 
完全 共享 的 顺序 一 致 性 内 存 的 多 计算 机 系统 。 但 是 ， 从 性 能 提高 角度 考虑 ，IVY 的 实现 对 刚 
才 的 基本 思想 进行 了 许多 优化 。IVY 实现 的 第 一 个 优化 措施 是 页 面 可 以 被 打上 只 读 标 记 ， 这 
种 页 面 可 以 同时 出 现在 多 个 节点 中 。 这 样 ， 发 生 缺 页 时 ， 就 只 是 把 所 缺 页面 的 拷贝 发 送 到 缺 
页 的 CPU， 而 原来 的 页 面 仍然 保留 在 原 处 ， 之 所 以 能 这 样 做 是 因为 不 会 发 生 冲 突 。 两 个 CPU 
共享 一 个 只 读 页 面 ( 页面 10 ) 的 情况 如 图 8-46c 所 示 。 

即使 使 用 了 这 种 优化 措施 ， 性 能 还 是 不 可 接受 ， 特 别 是 当 一 个 进程 正在 忙于 向 某 些 页 面 
的 顶部 写 入 而 男 一 个 进程 则 向 同样 的 页 面 的 底部 写 人 的 时 候 。 由 于 页 面 的 拷贝 只 有 一 个 ， 所 
以 页 面 就 会 像 乒乓 球 一 样 在 两 个 CPU 之 间 不 停 地 传 来 传 去 ， 这 种 情况 称 为 共享 失败 ( false 
sharing ). 

共享 失败 问题 可 以 用 多 种 方式 来 解决 。 例 如 ， 在 Treadmarks 系统 中 ， 放 弃 了 顺序 一 致 性 
内 存 模型 而 使 用 了 释放 一 致 性 (Amza,1996 )。 在 该 系统 中 ， 可 能 被 写 的 页 可 以 同时 出 现在 多 
个 节点 中 ， 但 是 进程 在 执行 写 操作 之 前 ， 必 须 执行 acquire 操作 来 通知 自己 的 竞争 者 。 这 时 ， 
除了 最 近 的 拷贝 之 外 的 所 有 其 他 拷贝 都 被 置 为 无 效 。 在 该 进程 执行 相应 的 release 之 前 ， 不 对 
该 页 面 做 任何 拷贝 ,也 就 是 说 ， 只 有 在 执行 了 release 操作 之 后 该 页 面 才能 够 被 再 次 共享 。 

Treadmarks 采用 的 第 二 种 优化 措施 是 在 初始 时 把 所 有 的 可 写 页 面 都 映射 成 只 读 模 式 。 当 
要 对 某 个 页 面 写 人 时 ， 会 发 生 保护 错 然后 系统 会 做 该 页 的 拷贝 ， 这 种 技术 称 为 双 页 (twin )。 
然后 把 该 页 映射 成 读 写 模式 ， 接 下 来 的 写 操作 可 以 全 速 执行 。 如 果 在 这 以 后 ， 远 程 页 面 发 生 
缺 页 ， 该 页 面 将 被 发 送 到 远程 页 面 处 ， 这 时 首先 对 两 个 页 面 进行 逐 字 的 比较 ， 然 后 发 送 那些 
发 生 改 变 的 字 ， 这 样 可 以 减少 消息 的 长 度 。 

当 发 生 缺 页 时 ， 首 先 要 定位 缺失 的 页 面 。 解 决定 位 问题 可 以 使 用 多 种 不 同 的 方案 ， 包 括 
NUMA 和 COMA 计算 机 中 使 用 的 方案 ， 比 如 基于 宿主 的 目录 等 。 实 际 上 ， 用 于 DSM 的 许多 
方案 也 可 以 用 于 NUMA 和 COMA, AX DSM 只 不 过 是 在 NUMA 和 COMA 之 上 的 软件 实 
现 ， 如 果 你 把 NUMA 和 COMA 中 的 cache 块 看 成 是 页 面 就 很 容易 理解 这 一 点 。 

DSM 是 一 个 研究 热点 。 相 关 的 系统 还 包括 CASHMERE Kontothanassis “# ,1997;Stets 
等 ,1997 )、CRL (Johnson 等 ,1995 ), Shasta ( Scales 等 ,1996 ) 和 Treadmarks ( Amze,1996;Lu 
等 1997 )。 

2. Linda 

IVY 和 Treadmarks 这 样 的 分 页 DSM 系统 使 用 MMU 硬件 对 缺 页 访问 执行 陷阱 。 刚 才 我 
们 已 经 看 到 ， 标 记 并 发 送 页 面 之 间 的 不 同 而 不 发 送 整 个 页 面 对 提 高 性 能 有 帮助 ， 这 一 事实 也 
说 明 页 面 并 不 是 适 于 共享 的 单元 ， 因 此 人 们 也 尝试 了 其 他 的 策略 。 

Linda 就 是 这 样 一 种 策略 ，Linda 为 多 台 计 算 机 上 的 进程 提供 了 高 度 结构 化 的 分 布 式 共 享 
内 存 (Carriero 和 Gelernter，1989 )。 这 种 共享 内 存 是 通过 一 组 原 语 操作 来 访问 的 ， 这 些 原 语 
被 扩展 到 C Al FORTRAN 这 样 的 现 有 的 语言 中 就 形成 了 称 为 C-Linda 和 FORTRAN-Linda 的 
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并 行 语言 。 

Linda 中 使 用 的 统一 的 概念 是 称 为 元 组 空间 (tuple space ) 的 抽象 概念 ， 在 整个 系统 中 ， 
元 组 空间 是 全 局 的 ， 所 有 的 进程 都 可 以 访问 它 。 元 组 空间 类 
似 于 全 局 共享 内 存 ， 它 的 特点 是 有 内 在 的 结构 。 元 组 空间 包 | gr 中 6,9: 
括 一 定数 量 的 元 组 ( tuple Jy 每 个 元 组 都 由 一 个 或 者 多 个 域 组 (“family”, “is sister’, Carolyn, Elinor) 
成 。 以 C-Linda 为 例 ， 域 类 型 包括 整数 、 长 整数 、 浮 点 数 和 类 图 8-47 3 个 Linda 元 组 
似 于 数组 ( 包括 字符 串 ) 和 结构 这 样 的 复合 类 型 ( 但 是 不 包 
括 其 他 元 组 )。 图 8-47 中 是 3 个 元 组 的 例子 。 

在 元 组 上 可 以 执行 4 种 操作 。 第 一 种 操作 是 out， 此 操作 把 一 个 元 组 放 人 元 组 空间 中 。 例 如 ， 


out(“abe”, 2, 5); 
执行 的 结果 就 是 把 元 组 (“abe”,2,5) 放 人 了 元 组 空间 。onut 的 域 是 常量 、 变 量 或 者 表达 式 。 在 


out(“matrix—1”, i, j, 3.14); 


中 ,输出 的 元 组 有 4 个 域 , 第 二 个 和 第 三 个 域 的 值 由 变量 i 和 .jj 的 当前 值 决定 。 
原 语 in 可 以 从 元 组 空间 中 取出 元 组 。 它 们 是 通过 内 容 而 不 是 通过 名 字 或 者 地 址 来 寻 址 
AY. in 的 域 可 以 是 表达 式 或 者 形式 化 参数 。 看 下 面 的 例子 : 


in(“abe”, 2, ? i); 


该 操作 将 查找 由 字符 串 “abc”、 整 数 2 和 任意 的 整数 (假定 i 是 整数 ) 组 成 的 元 组 。 如 果 找 
到 ， 就 会 从 元 组 空间 中 把 该 元 组 移出 并 把 变量 i 赋值 为 该 元 组 的 第 三 个 域 的 值 。 匹 配 和 移动 
都 是 原子 操作 ， 因 此 如 果 两 个 进程 通过 执行 相同 的 in 操作 ， 只 有 一 个 能 成 功 ， 除 非 元 组 空间 
中 有 两 个 或 者 更 多 的 匹配 元 组 。 元 组 空间 中 可 以 包括 同一 个 元 组 的 多 个 拷贝 。 

in 操作 使 用 的 匹配 算法 很 直观 。in 操作 中 出 现 的 域 叫做 模板 (template )， 模 板 和 元 组 空 
间 中 的 每 个 元 组 的 相应 的 域 进行 比较 。 如 果 下 面 三 个 条 件 都 满足 我 们 就 称 找到 了 一 个 匹配 : 

1 ) 模板 和 元 组 的 域 的 数量 相同 。 

2 ) 对 应 的 域 的 类 型 相同 。 

3 ) 模板 中 的 每 个 常数 或 变量 都 和 元 组 的 域 匹配 。 

由 问号 标识 的 变量 名 或 者 类 型 是 形式 参数 ， 它 们 不 参加 匹配 ( 除了 类 型 检查 )， 它 们 只 是 
在 匹配 成 功 之 后 被 赋值 。 

如 果 没 有 找到 匹配 元 组 ， 调 用 进程 将 被 挂 起 直到 另 一 个 进程 插入 匹配 的 元 组 ， 这 时 调用 
者 将 被 自动 唤醒 并 得 到 这 个 新 的 分 组 。 进 程 自动 阻塞 和 解除 阻塞 这 一 事实 意味 着 如 果 一 个 进 
程 想 输出 元 组 而 男 一 个 进程 想 输入 元 组 ， 那 么 谁 先 执行 对 结果 没有 影响 。 

除了 out 和 in 之 外 ，Linda 还 有 一 个 read 原 语 ，read 和 in 唯一 不 同 之 处 是 read 并 不 把 元 
组 从 元 组 空间 中 移出 。 还 有 一 个 原 语 叫 做 eval, eval 的 参数 被 并 行 求 值 ， 得 到 的 元 组 被 放 人 和 人 
元 组 空间 。 这 种 机 制 可 以 用 于 执行 任意 的 计算 。 这 就 是 Linda 中 并 行进 程 的 创建 过 程 。 

Linda 中 常用 的 编程 模式 是 拷贝 工作 者 模式 (replicated worker model )。 该 模式 基于 任务 
包 思 想 ， 任 务 包 由 将 要 完成 的 工作 组 成 。 主 进程 通过 执行 包括 下 面 语句 的 循环 来 启动 工作 者 ， 


out(“task-bag”, job); 


在 该 循环 中 ， 每 条 语句 都 输出 一 个 任务 描述 到 元 组 空间 中 。 每 个 工作 者 通过 使 用 下 面 的 语句 
来 获得 一 个 任务 描述 元 组 ， 
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in(”task-bag”, ?job); 
然后 执行 该 任务 。 当 任务 完成 后 ， 再 取 另 一 个 。 在 执行 过 程 中 ， 也 可 以 把 新 的 工作 放 入 任务 
包 。 使 用 这 种 简单 的 方式 时 ， 工 作 可 以 动态 地 在 工作 者 之 间 分 配 ， 每 个 工作 者 都 处 于 忙 状态 ， 
每 个 的 负载 都 很 小 。 

多 处 理 机 系统 中 有 多 种 Linda 的 实现 。 所 有 这 些 实现 的 关键 问题 都 是 如 何在 计算 机 之 间 
分 配 元 组 以 及 在 需要 的 时 候 如 何 定位 这 些 元 组 。 实 现 方 式 有 多 种 ， 主 要 包括 基于 广播 的 和 基 
于 目录 的 。 拷 贝 也 是 一 个 重要 的 问题 。 这 些 问题 的 讨论 可 以 参见 Bjornson ( 1993 )。 

3. Orca 

在 多 计算 机 系统 上 实现 应 用 级 的 共享 内 存 的 另 一 种 不 同 的 策略 是 使 用 完整 的 对 象 来 取代 
元 组 作为 共享 的 单元 。 对 象 由 内 部 的 ( 隐藏 ) 状态 和 操作 这 些 状 态 的 方法 组 成 。 由 于 不 允许 
程序 员 直 接 访 问 这 些 状 态 ， 这 就 为 没有 物理 共享 内 存 的 计算 机 共享 数据 提供 了 多 种 可 能 性 。 

Orca 就 是 一 种 在 多 计算 机 系统 上 实现 的 基于 共享 对 象 的 共享 内 存 管理 方法 (Bal，1991 ; 
Bal 等 ，1992; Bal 和 Tanenbaum, 1988), Orca 是 一 种 传统 的 编程 语言 (基于 Modula 2 )， 它 
有 两 个 新 特性 : 对 象 和 创建 新 进程 的 能 力 。Orca 对 象 是 一 种 数据 类 型 的 抽象 ， 和 Java 以 及 
Ada 包 中 的 对 象 很 类 似 。 它 包括 内 部 数据 结构 和 用 户 编写 的 方法 ， 这 些 方法 称 为 操作 
(operation )。 对 象 是 被 动 的 ， 也 就 是 说 ， 对 象 不 包括 能 够 发 送 消息 的 线程 。 相 反 ， 进 程 通过 调 
用 对 象 的 方法 来 访问 对 象 的 内 部 数据 。 





一 一 一 
Object implementation stack; 














每 个 Orca 方 法 都 由 一 系列 ( 监 top:integer; # 栈 的 存储 量 
视 哨 i 语 名 块 ) x if 组 成 。 监视 哨 i stack: array [integer 0..N—1] of integer; 
个 不 包括 任何 边界 效果 的 逻辑 表达 式 ， we push(item: integer); # 函数 没有 任何 返回 值 
也 就 是 说 空 监视 哨 的 值 是 true。 当 调 sie isa tele patio # 把 和 em 压 入 模 
用 某 个 操作 的 时 候 ， 需 要 以 某 种 非特 top = top +1 PRIR] 
定 的 方式 对 操作 的 所 有 监视 哨 进行 求 | end 
值 。 如 果 所 有 监视 哨 的 值 都 为 false, operation pop( ): integer; # 该 函数 返回 一 个 整数 
则 调用 进程 将 一 直 阻塞 直到 某 个 监视 | 9gtop odo # 如 果 术 为 空 将 挂 直 
哨 变 成 tme。 当 发 现 某 个 监视 哨 的 什 人 eiei e M 
变 成 tue 之 后 ， 语 名 块 将 继续 执行 。 | o 
图 8-48 是 带 有 push 和 pop 操作 的 栈 
对 象 stack。 Byers # 初始 化 
定义 了 stack 类 型 之 后 ， 就 可 以 【end 
定义 该 类 型 的 变量 了 ， 比 如 : 图 8-48 简化 的 ORAC 栈 对 象 ， 该 对 
mye 象 有 内 部 数据 和 两 个 操作 
此 定义 初始 化 两 个 栈 对 象 并 把 栈 顶 变量 top 置 为 0。 下 面 这 条 语句 把 整数 变量 大 压 人 栈 ， 
s$push(k); 


其 他 的 操作 与 此 类 似 。pop 操作 有 一 个 监视 哨 ， 因 此 当 试 图 从 一 个 空 栈 中 pop 变量 时 ， 调 用 
者 将 会 被 挂 起 直到 另 一 个 进程 向 栈 中 压 人 某 些 变 量 。 

Orca 使 用 fork 语句 在 用 户 指定 的 处 理 器 上 创建 一 个 新 进程 。 这 个 新 进程 将 运行 fork 语句 
中 指定 的 过 程 。 参 数 ， 包 括 对 象 ， 可 以 被 传递 给 新 进程 ， 这 就 是 对 象 在 计算 机 之 间 分 布 的 方 
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式 。 例 如 ， 语 句 

for iin 1 .. n do fork foobar(s) on i; od; 

在 计算 机 1 ~ n 上 分 别 生成 一 个 新 进程 ， 每 个 进程 都 运行 程序 foobar. HF ik n PA 
它们 的 父 进 程 并 行 执 行 ， 因 此 它们 都 可 以 对 共享 的 栈 s 执行 人 栈 和 出 栈 操作 ， 就 好 像 它 们 是 
在 共享 内 存 的 多 处 理 器 系统 上 运行 一 样 。 运 行 时 系统 的 工作 就 是 使 这 些 进程 看 到 实际 上 并 不 
存在 的 共享 内 存 。 

对 共享 对 象 的 操作 都 是 原 语 而 且 保 持 顺序 一 致 性 。 系 统 保证 当 多 个 进程 几乎 同时 在 某 个 
共享 对 象 上 执行 操作 时 ， 系 统 会 选择 某 种 顺序 而 且 所 有 的 进程 都 能 够 看 到 相同 的 顺序 。 

Orca 使 用 了 一 种 基于 分 页 的 DSM 系统 没有 的 方式 集成 共享 数据 和 同步 。 并 行程 序 需 要 
两 种 同步 。 第 一 种 是 信号 量 互 斥 同步 ， 它 可 以 防止 两 个 进程 同时 访问 临界 区 代码 。 在 Orca 
中 ， 共 享 对 象 的 每 个 操作 从 效果 上 来 看 都 类 似 于 临界 区 ， 因 为 系统 保证 最 后 的 结果 和 把 它们 
都 看 成 是 临界 区 然后 一 次 执行 一 段 临界 区 代码 所 得 到 的 结果 相同 (也 就 是 顺序 性 )。 从 这 个 方 
面 来 看 ，Orca 对 象 类 似 于 分 布 式 的 监视 器 〈Hoare,1975 )。 

另 一 种 类 型 的 同步 是 条 件 同 步 ， 使 用 这 种 同步 时 ， 进 程 将 阻塞 直到 某 个 条 件 发 生 。 在 
Orca 中 ,条 件 同步 是 通过 监视 哨 来 实现 的 。 在 图 8-44 的 例子 中 ， 试 图 从 空 栈 中 弹出 数据 的 进 
程 将 会 被 挂 起 直到 栈 不 为 空 〈 毕竟 不 能 从 空 栈 中 弹出 数据 )。 

Orca 的 运行 时 系统 处 理 对 象 的 拷贝 、 移 动 、 一 致 性 维护 和 操作 调用 。 每 个 对 象 都 处 于 两 
种 状态 之 一 : 单一 拷贝 和 拷贝 。 处 于 单一 拷贝 状态 的 对 象 只 存在 于 一 台 节 点 计算 机 上 ， 这 样 
所 有 的 请 求 都 发 送 到 该 计算 机 上 。 拷 贝 对 象 存在 于 有 进程 使 用 该 对 象 的 所 有 节点 计算 机 上 ， 
这 可 以 使 读 操作 变 得 更 容易 ( 可 以 在 本 地 执行 )， 付 出 的 代价 是 更 新 操作 比较 复杂 。 当 操作 需 
要 修改 拷贝 对 象 时 ， 它 必须 首先 从 发 出 这 些 拷贝 对 象 的 中 央 控 制 进程 获得 序列 号 。 然 后 向 持 
有 该 对 象 的 拷贝 的 每 台 节 点 计算 机 发 送 消 息 ， 通 知 它们 执行 操作 。 所 有 的 更 新 操作 都 服从 序 
列 号 ， 所 有 的 计算 机 都 按照 序列 号 的 顺序 执行 操作 ， 这 样 可 以 保证 顺序 一 致 性 。 


8.4.7 性 能 


设计 并 行 计算 机 的 目的 就 是 使 它 的 运行 速度 比 单 处 理 器 的 计算 机 快 。 如 果 不 能 实现 这 一 
目标 ,那么 所 有 的 努力 都 是 白费 。 此 外 ,我 们 还 应 该 用 尽 可 能 高 效率 的 方式 实现 这 一 目标 。 
一 台 比 单 处 理 器 的 计算 机 快 两 倍 但 是 却 贵 50 倍 的 并 行 计 算 机 是 肯定 无 人 问津 的 。 本 节 我 们 将 
讨论 和 并 行 计算 机 体系 结构 相关 的 性 能 问题 ， 先 从 如 何 进行 度量 开始 。 

1. 硬件 性 能 指标 

从 硬件 的 角度 来 说 ,我们 感 兴趣 的 性 能 指标 是 CPU 和 输入 /输出 的 速度 以 及 互联 网 络 的 
PERE. CPU 和 输入 /输出 的 速度 和 单 处 理 器 的 情况 一 样 ， 因 此 并 行 计算 机 中 关键 的 性 能 指标 
就 是 互联 网 络 的 性 能 。 互 联网 络 的 性 能 有 两 个 关键 的 指标 : 延 时 和 带宽 ， 下 面 我 们 依次 讨论 。 

往返 的 延迟 时 间 是 从 CPU 发 送 分 组 到 接收 到 响应 的 时 间 间 隔 。 如 果 分 组 是 发 送 到 内 存 
去 的 ， 那 么 延迟 时 间 就 是 读 写 一 个 内 存 字 或 者 一 块 内 存 区 的 时 间 。 如 果 分 组 是 发 送 到 另 一 个 
CPU 的 ， 则 延迟 时 间 就 反映 了 使 用 该 大 小 分 组 的 处 理 器 间 的 通信 时 间 。 一般 来 说 ,我 们 感 兴 
趣 的 是 最 小 分 组 的 延迟 时 间 ， 通 常 是 一 个 字 或 者 是 高 速 缓存 中 的 一 小 块 。 

延迟 时 间 由 多 个 因素 决定 ， 而 且 电 路 交换 、 存 储 转 发 、 虚 拟 直 通 和 虫 伺 寻 径 的 延迟 时 间 
都 是 不 同 的 。 对 于 电路 交换 来 说 ， 延 迟 时 间 是 电路 建立 时 间 和 传输 时 间 之 和 。 为 了 建立 一 条 
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电路 ， 首 先 要 发 送 一 个 探测 分 组 预约 资源 并 报告 结果 。 在 发 送 探测 分 组 时 ， 可 以 同时 装配 数 
据 分 组 。 当 电路 建立 以 后 ， 数 据 分 组 就 可 以 全 速 传 送 ， 因 此 如 果 电 路 建立 时 间 是 五 ， 分 组 的 
大 小 是 p 位 ,电路 的 带宽 是 5 位 / 秒 ， 那么 单 向 的 延迟 时 间 就 是 T+p/5。 如 果 电 路 是 全 双 工 
的 ， 那 么 响应 分 组 就 不 需要 电路 建立 时 间 ， 因 此 传送 一 个 p 位 的 分 组 并 获得 一 个 p 位 的 响应 
分 组 的 最 小 延迟 时 间 是 T+2p/b 秒 。 

对 分 组 交换 来 说 ， 不 需要 事先 向 目的 节点 发 送 探测 分 组 ， 但 是 仍然 需要 装配 分 组 的 时 间 
ZT,。 单 向 传送 时 间 是 Ttp/b5， 但 这 仅仅 是 把 分 组 传送 到 第 一 个 交换 节点 的 时 间 。 在 交换 节点 内 
部 有 一 个 延迟 时 间 Ts， 然 后 交换 节点 重复 该 过 程 继续 往 下 一 个 节点 传送 。Ty 是 由 处 理 时 间 和 
等 待 输出 端口 空闲 的 排队 时 间 组 成 的 。 如 果 经 过 了 zj 个 交换 节点 ， 那 么 整个 单 向 的 延迟 就 是 
Ttn(p/b+T2)+p/b， 最 后 一 个 pib 表示 从 最 后 一 个 交换 节点 到 目的 节点 的 拷贝 过 程 。 

虚拟 直通 和 虫 蚀 寻 径 的 单 向 延迟 时 间 在 最 理想 的 情况 下 接近 于 T+p/b5， 因 为 它们 不 需要 
发 送 探 测 分 组 建立 电路 ， 也 没有 存储 转发 延 时 。 因 此 ， 一 般 来 说 ,延迟 时 间 就 是 初始 装配 分 
组 的 时 间 加 上 发 送 分 组 的 时 间 ， 当 然 ， 在 所 有 的 延迟 时 间 中 都 应 该 有 传送 延迟 ， 但 是 一 般 来 
说 ， 传 送 延 迟 很 小 。 

另 一 个 硬件 性 能 指标 是 带宽 。 许 多 并 行程 序 ， 特 别 是 用 于 科学 计算 的 并 行程 序 往往 需要 
移动 大 量 的 数据 ， 因 此 系统 每 秒 能 够 移动 的 字 节 数 就 成 了 系统 比较 关键 的 性 能 指标 。 关 于 带 
宽 有 多 个 性 能 指标 。 我 们 前 面 已 经 讨论 了 对 分 带宽 。 另 一 个 带宽 指标 是 聚集 带宽 (aggregate 
bandwidth )， 它 是 把 所 有 链 路 的 带宽 加 在 一 起 而 得 到 的 。 聚 集 带 宽 给 出 了 系统 能 够 同时 传送 
的 最 大 的 位 数 。 另 一 个 重要 的 带宽 指标 是 按照 CPU 输出 能 力 计 算 的 平均 带宽 ， 如 果 每 个 CPU 
只 有 MB/s 的 输出 能 力 ， 那 么 使 用 对 分 带宽 为 100GB/s 的 互联 网 络 也 没有 什么 意义 。 每 个 
CPU 能 够 输出 的 数据 量 也 就 决定 了 整个 系统 的 通信 量 。 

在 实际 使 用 中 获得 接近 理论 值 的 带宽 非常 困难 。 许 多 额外 的 处 理 都 会 降低 带宽 。 例 如 ， 
对 每 个 分 组 都 需要 做 一 些 额外 的 工作 : 装配 、 计 算 头 部 、 发 送 分 组 。 发 送 1024 个 4 字 节 的 分 
组 获得 的 带宽 肯定 要 小 于 发 送 一 个 4096 字 节 的 分 组 时 的 带宽 。 但 是 ， 使 用 小 分 组 更 有 利于 降 
低 延 迟 时 间 ， 因 为 大 分 组 会 使 线路 和 交换 节点 长 时 间 处 于 阻塞 状态 。 因 此 ， 低 延迟 时 间 和 高 的 
带宽 利用 率 之 间 就 出 现 了 内 在 的 矛盾 。 对 某 些 应 用 来 说 ， 某 个 指标 比 另 一 个 指标 更 重要 ， 但 是 
另 一 些 应 用 可 能 就 是 相反 的 情况 。 需 要 指出 的 是 ， 你 可 以 买 到 更 大 的 带宽 ( 通过 增加 链 路 )， 
但 是 你 买 不 到 更 小 的 延 时 。 因 此 一 般 来 说 ， 先 使 延迟 时 间 尽 可 能 小 然后 再 考虑 带宽 比较 好 。 

2. 软件 性 能 指标 

延迟 时 间 和 带宽 这 样 的 硬件 性 能 指标 反映 的 是 硬件 的 性 能 。 但 是 用 户 可 能 有 不 同 的 观点 。 
他 们 想 知 道 在 并 行 计算 机 上 运行 程序 和 在 单 处 理 器 计算 机 相 比 能 快 多 少 。 对 他 们 来 说 ， 关 键 
的 性 能 指标 是 加 速 比 ( speedup ) : 一 个 程序 在 有 个 处 理 器 的 计算 机 上 运行 和 在 只 有 一 个 处 
理 器 的 计算 机 上 运行 相 比 快 多 少 倍 。 一 些 典 型 的 结果 如 图 8-49 所 示 。 图 中 画 出 了 在 由 64 个 
Pentium Pro CPU 组 成 的 多 计算 机 系统 上 运行 几 个 不 同 的 并 行程 序 的 结果 。 每 条 曲线 都 反映 了 
一 个 程序 的 加 速 比 ， 加 速 比 是 CPU 的 数量 大 的 函数 。 最 理想 情况 下 的 加 速 比 如 图 中 的 虚线 所 
示 ， 使 用 个 CPU 将 使 程序 运行 快 丰 倍 ， 并 且 对 于 任意 的 大 都 成 立 。 很 少 有 程序 能 够 获得 理 
想 的 加 速 比 ， 但 是 有 些 程序 比较 接近 理想 的 加 速 比 。N-body 问题 的 并 行 度 就 极其 理想 ; awari 
(一 种 非洲 的 棋盘 游戏 ) 就 有 比较 理想 的 加 速 比 ; 但 是 不 管 使 用 多 少 个 CPU 转换 一 个 特定 的 
图 像 矩 阵 的 加 速 比 都 不 会 超过 5。 关 于 这 些 程序 和 结果 的 进一步 讨论 参见 Bal 等 (1998 )。 

理想 的 加 速 比 不 可 能 达到 的 部 分 原因 是 几乎 所 有 的 程序 都 有 串 行 部 分 ， 比 如 程序 的 初始 
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化 、 数 据 读 入 和 结果 的 合并 等 。 在 这 些 地 方 ，CPU 再 多 也 没有 用 。 假 定 一 个 程序 在 单 处 理 器 
的 计算 机 上 运行 需要 7T 秒 ， 其 中 的 一 部 分 是 串 行 代码 ， 百 分 比 记 为 1， 那 么 剩余 的 (1-7) 就 
是 可 以 并 行 的 ， 如 图 8-50a 所 示 。 如 果 后 一 部 分 代码 运行 在 n 个 CPU 上 而 且 没 有 任何 其 他 开 
销 ， 那 么 在 最 理想 的 情况 下 ， 执 行 时 间 可 以 从 (1-f) 了 减少 到 (1-7) Tin， 如 图 8-50b 所 示 。 
那么 串 行 部 分 加 并 行 部 分 的 整个 执行 时 间 就 是 JT+ (1-f) Tn。 加 速 比 就 是 原来 程序 的 执行 时 
间 除 以 新 的 程序 的 执行 时 间 : 


uae = l+(n—lf 
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a) 由 串 行 部 分 和 并 行 部 分 组 成 的 程序 b) 程序 部 分 并 行 运行 的 效果 


图 8-50 


如 果 广 0， 我 们 就 可 以 获得 线性 加 速 比 ， 但 是 如 果 . 户 0， 就 不 可 能 得 到 理想 加 速 比 ， 因 为 存在 
串 行 部 分 。 这 就 是 Amdahl 定律 。 

Amdahl 定律 并 不 是 不 能 获得 理想 加 速 比 的 唯一 的 原因 。 通 信 延 迟 时 间 、 有 限 的 通信 带宽 
和 算法 的 效率 都 会 影响 程序 的 加 速 比 。 另 外 ， 即 使 你 有 1000 个 CPU 可 用 ， 也 不 能 保证 所 有 
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的 程序 都 能 利用 这 么 多 的 CPU， 而 且 使 这 么 多 程序 一 块 运行 带 来 的 开销 也 相当 可 观 。 此 外 ， 
通常 已 知 的 最 佳 算法 的 并 行 性 都 比较 差 ， 因 此 在 并 行 计算 的 情况 下 通常 只 能 使 用 次 优 的 算法 。 
所 有 这 些 都 表明 ， 对 许多 应 用 来 说 ， 能 够 在 使 用 2n 个 CPU 的 情况 下 使 程序 的 运行 时 间 快 n 
倍 已 经 很 邻 人 满意 了 。 毕 竟 ，CPU 的 价格 并 不 十 分 昂贵 ,而且 许 多 公司 的 业务 部 门 也 并 不 能 
保证 100% 的 工作 效率 。 

3. 获得 高 性 能 

提高 性 能 最 直观 的 办 法 就 是 给 系统 增加 更 多 的 CPU. 但 是 ,增加 CPU 时 要 注意 不 要 产 
生 任 何 瓶 颈 。 如 果 一 个 系统 能 够 增加 更 多 的 CPU， 而 且 增 加 的 CPU 能 够 相应 增强 计算 能 力 ， 
那么 我 们 就 说 该 系统 是 可 扩展 的 ( scalable )。 

为 了 更 好 地 理解 可 扩展 性 的 含义 ， 我 们 来 看 一 下 图 8-51a 中 的 4 个 CPU 通过 总 线 相连 的 
例子 。 现 在 我 们 给 该 系统 增加 12 个 CPU 使 CPU 数目 增加 到 16 个 ， 如 图 8-51b 所 示 。 如 果 
总 线 的 带宽 是 上 MB/s, 那么 由 于 CPU 数量 增加 了 4 倍 ， 每 个 CPU 可 用 的 带宽 就 从 b/4MB/s 
降低 到 bp/16MB/s。 这 样 的 系统 不 是 可 扩展 的 。 


eeno pgg 


a) 4 个 CPU 的 基于 b) 16 个 CPU 的 基于 c) 4 个 CPU 的 基于 d) 16 个 CPU 的 基于 
总 线 的 系统 总 线 的 系统 网 格 的 系统 网 格 的 系统 


图 8-51 


下 面 我 们 对 基于 网 格 网 络 的 系统 做 同样 的 扩展 ， 如 图 8-49c 和 图 8-51d 所 示 。 使 用 这 种 
拓扑 结构 ， 增 加 新 的 CPU 时 也 要 增加 相应 的 链 路 ， 因 此 系统 的 扩展 并 不 会 像 基于 总 线 的 系统 
那样 导致 每 个 CPU 的 平均 带宽 的 下 降 。 实 际 上 ， 链 路 和 CPU 的 比例 从 4 个 CPU 时 的 1.0 (4 
个 CPU，4 条 链 路 ) 提高 到 了 16 个 CPU 时 的 1.5 (16 个 CPU，24 条 链 路 )， 因 此 ，CPU 的 
增加 相应 地 提高 了 CPU 的 平均 带宽 。 

当然 ， 带 宽 并 不 是 唯一 的 问题 。 为 总 线 系统 增加 CPU 并 不 增加 互联 网 络 的 直径 以 及 没有 
竞争 情况 下 的 线路 延 时 ， 而 网 格 网 络 系统 则 不 是 这 样 。 对 于 nxn 的 网 格 网 络 来 说 ， 直 径 是 
2 (n-1 )， 因 此 最 坏 情况 ( 和 平均 情况 ) 的 延 时 增长 大 约 是 和 CPU 的 平方 根 成 正比 的 。 如 果 
有 400 个 CPU， 直 径 是 38， 而 使 用 1600 个 CPU 直径 是 78， 那 么 ，CPU 的 数量 每 增加 4 倍 ， 
网 络 的 直径 和 平均 延迟 时 间 就 相应 地 增加 一 倍 。 

理想 情况 下 ， 一 个 可 扩展 的 系统 随 着 CPU 数目 的 增加 应 该 能 够 保持 相同 的 CPU 平均 带 
宽 和 不 变 的 平均 延迟 时 间 。 而 在 实际 中 ， 保 持 CPU 的 足够 的 带宽 是 可 以 做 到 的 ， 但 是 在 所 有 
实际 的 设计 方案 中 ， 延 迟 时 间 总 是 随 着 CPU 数量 的 增长 而 增长 。 使 延迟 时 间 按 照 CPU 数量 
的 对 数 增长 ， 就 像 超 立方 体 那样 ， 就 已 经 是 最 好 的 方案 了 。 

随 着 系统 规模 的 扩大 延迟 时 间 也 随 之 增长 的 问题 对 于 细 粒 度 和 中 粒度 的 应 用 的 性 能 影响 
是 致命 的 。 如 果 一 个 程序 需要 的 数据 不 在 本 地 内 存 中 ， 那 么 就 需要 花费 一 定 的 延迟 时 间 来 获 
得 数据 ， 正 如 我 们 前 面 所 看 到 的 ， 系 统 越 大 ， 延 迟 时 间 就 越 长 。 多 人 处理 器 系统 和 多 计算 机 系 
统 都 存在 这 个 问题 ， 因 为 在 这 两 种 系统 中 物理 内 存 都 被 分 成 了 大 量 的 模块 。 
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观察 到 这 一 问题 之 后 ， 系 统 的 设计 者 们 花费 了 大 量 的 努力 来 减少 至 少 是 隐藏 延迟 时 间 ， 
下 面 我 们 来 看 一 看 常用 的 一 些 技术 。 第 一 种 延迟 隐藏 技术 是 数据 拷贝 。 如 果 一 个 数据 块 同时 
在 多 个 位 置 有 拷贝 ,那么 从 有 拷贝 的 位 置 进行 访问 就 可 以 提高 速度 。cache 就 是 其 中 的 一 种 拷 
贝 技 术 ， 使 用 cache 时 ， 数 据 块 的 一 个 或 者 多 个 拷贝 被 保存 在 靠近 数据 使 用 者 的 地 方 ， 就 好 
像 它们 是 属于 数据 使 用 者 的 。 还 有 一 种 方式 是 同时 管理 多 个 对 等 的 数据 拷贝 ， 也 就 是 说 ， 所 
有 的 拷贝 的 状态 都 是 相同 的 ， 这 和 非 对 称 的 主 / 从 方式 的 cache 机 制 不 同 。 当 使 用 多 个 拷贝 的 
策略 时 ， 无 论 采取 何 种 形式 ， 关 键 问 题 都 是 数据 块 放 在 哪里 、 什 么 时 候 放 、 由 谁 来 放 。 实 际 
使 用 中 ， 既 可 以 由 硬件 按照 要 求 动态 放置 ， 也 可 以 根据 编译 器 的 指令 在 程序 加 载 的 时 候 放 置 。 
无 论 使 用 何 种 策略 ， 都 要 注意 数据 的 一 致 性 问题 。 

第 二 种 延 时 隐藏 技术 是 数据 预 取 (prefetching )。 如 果 数 据 在 使 用 之 前 就 被 预先 取出 ， 那 
么 当 需 要 使 用 数据 的 时 候 ， 数 据 已 经 可 用 了 ， 数 据 预 取 过 程 可 以 和 正常 的 执行 重 和 到 进行 。 预 
取 可 以 是 自动 的 也 可 以 在 程序 控制 下 执行 。cache 就 使 用 了 自动 的 预 取 策略 ， 当 cache 从 内 存 
中 取 一 个 需要 用 到 的 字 时 ， 它 并 不 是 只 取 这 一 个 字 而 是 把 包括 这 个 字 的 一 块 数据 都 存 人 一 个 
cache 块 中 , 这样 做 的 依据 是 后 续 的 字 很 可 能 很 快 被 用 到 。 

预 取 也 可 以 在 程序 控制 下 执行 。 当 编译 器 意识 到 它 将 要 使 用 某 些 数 据 时 ， 它 就 产生 一 条 
获取 数据 的 指令 并 把 这 条 指令 放 在 前 面 以 保证 能 及 时 取出 数据 。 使 用 这 种 策略 要 求 编译 器 对 
底层 计算 机 的 结构 和 延迟 有 完整 的 了 解 并 且 能 够 完全 控制 数据 的 存 取 。 如 果 能 够 保证 数据 将 
被 使 用 ， 这 种 预先 执行 的 LOAD 指令 将 工作 得 很 好 。 但 是 如 果 为 了 一 条 不 太 可 能 执行 到 的 路 
径 去 执行 LOAD 指令 预 取 数据 导致 缺 页 的 话 ， 将 得 不 偿 失 。 

第 三 种 延 时 隐藏 技术 是 多 线程 。 大 多 数 现代 计算 机 都 支持 多 道 程序 ， 也 就 是 可 以 同时 运 
行 多 个 进程 (或 者 是 基于 分 时 机 制 的 伪 并 行 )。 如 果 进 程 间 的 切换 足够 快 ， 比 如 ， 给 进程 分 配 
自己 的 内 存 映 象 和 硬件 寄存 器 ， 那 么 当 一 个 进程 因为 等 待 远程 的 数据 而 阻塞 时 ， 硬 件 可 以 立 
即 切 换 到 另 一 个 可 以 执行 的 进程 。 在 受 限制 的 情况 下 ，CPU 可 以 运行 线程 1 的 第 1 条 指令 ， 
然后 运行 线程 2 的 第 2 条 指令 ， 依 此 类 推 。 使 用 这 种 方式 ，CPU 可 以 一 直 处 于 忙碌 状态 ， 即 
使 某 些 线程 访问 内 存 的 延迟 时 间 相 当 大 也 没有 关系 。 

第 四 种 延 时 隐藏 技术 是 使 用 无 阻塞 的 写 。 一 般 来 说 ， 当 执行 STORE 指令 时 ，CPU 会 等 
待 直到 STORE 指令 执行 完毕 再 继续 运行 。 使 用 无 阻塞 的 写 操作 时 ， 启 动 内 存 操作 后 ， 程 序 继 
续 运 行 。LOAD 指令 之 后 不 等 待 而 继续 执行 是 困难 的 ， 但 是 如 果 使 用 了 乱 序 执行 技术 ， 这 也 
是 可 能 的 。 


8.5 网 格 计算 


当今 科学 、 工 程 、 工 业 、 环 境 以 及 一 些 其 他 领域 中 的 挑战 性 问题 都 是 大 规模 和 跨 学 科 的 。 
解决 这 样 的 问题 需要 来 自 多 个 组 织 的 专业 经 验 、 技 巧 、 知 识 、 工 具 、 软 件 和 数据 ， 而 这 些 组 
织 经 常 是 在 不 同 的 国家 。 下 面 是 一 些 例子 : 

1) 科学 家 开发 登陆 火星 的 飞行 器 。 

2) 联盟 建造 复杂 的 产品 〈 例如 水 坝 或 者 航空 器 )。 

3) 自然 灾害 之 后 进行 援助 的 国际 救援 队 。 
其 中 一 些 需要 长 期 的 协作 ， 另 外 一 些 可 能 是 短期 行为 ， 但 是 它们 都 有 着 共同 的 要 求 ， 即 需要 
各 个 分 离 的 组 织 使 用 它们 各 自 资源 和 过 程 一 起 工作 去 实现 共同 的 目标 。 
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到 目前 为 止 ， 使 得 具有 不 同 计 算 机 操作 系统 、 数 据 库 和 协议 的 不 同 组 织 一 起 工作 ， 从 而 
共享 资源 和 数据 ， 这 还 是 非常 困难 的 。 然 而 ， 不 断 增长 的 对 大 规模 组 织 间 协 作 的 需求 引领 了 
新 的 系统 和 技术 的 开发 ， 这 些 系统 和 技术 将 广 域 分 布 的 计算 机 连接 到 一 起 构成 网 格 。 从 某 种 
意义 上 说 ， 网 格 是 图 8-1 沿 着 轴 向 的 进一步 发 展 。 网 格 可 以 被 想象 为 一 种 非常 大 的 、 国 际 间 
KW. WBA. FARER. 

网 格 的 目标 是 提供 一 种 技术 上 的 基础 设施 ， 从 而 能 够 使 得 一 些 有 着 共同 目标 的 组 织 形 成 
一 个 虚拟 组 织 (virtual organization )。 这 个 虚拟 组 织 必须 具有 灵活 性 ， 成 员 数量 众多 而 且 不 断 
变化 ， 要 允许 成 员 在 它们 认为 合适 的 领域 一 起 工作 ， 同 时 允许 按照 它们 所 期 望 的 程度 来 维护 
和 控制 它们 自己 的 资源 。 为 了 这 个 目标 ， 网 格 研究 人 员 正 在 开发 服务 、 工 具 和 协议 ， 从 而 使 
得 虚拟 组 织 能 够 运行 起 来 。 

网 格 中 对 等 的 参与 者 众多 ， 天 生 具 有 多 边 特 性 。 它 和 现 有 的 客户 -服务 器 (Client- 
Server, CS) 计算 结构 形成 鲜明 的 对 照 。 在 客户 - 服务 器 模型 中 ， 一 个 事务 包括 两 部 分 ， 即 提 
供 某 种 服务 的 服务 器 和 使 用 服务 的 客户 端 。 客 户 - 服务 器 模型 的 典型 例子 是 Web, 7E Web 中 
用 户 访问 Web 服务 器 来 得 到 信息 。 网 格 和 P2P 对 等 应 用 也 有 所 区 别 ， 对 等 应 用 中 成 对 的 个 体 
主要 是 进行 文件 交换 。E-mail 是 对 等 应 用 的 一 个 普通 例子 。 正 是 因为 网 格 和 其 他 模型 的 区 别 ， 
所 以 它 需 要 新 的 协议 和 技术 。 

网 格 需要 访问 广泛 变化 的 各 种 资源 。 每 个 资源 都 是 由 某 个 特殊 的 系统 和 组 织 所 拥有 ， 这 
些 系统 和 组 织 也 决定 了 能 够 提供 给 网 格 使 用 的 资源 的 多 少 ， 在 什么 时 间 能 够 使 用 ， 可 以 给 谁 
使 用 等 。 从 某 种 抽象 的 意义 上 说 ， 网 格 的 实质 就 是 关于 对 资源 的 访问 和 管理 。 

一 种 构造 网 格 的 方法 是 采用 如 图 8-52 所 示 的 分 层 结构 。 最 底层 是 构造 层 (fabric layer ), 
它 是 构建 网 格 的 组 件 集合 。 构 造 层 硬件 部 分 包括 CPU、 人 磁盘 、 网 络 以 及 传感器 等 ， 软 件 部 分 
包括 程序 和 数据 等 ， 这 些 都 是 网 格 通过 某 种 可 挖 方式 能 够 使 用 的 资源 。 

层 次 
应 用 层 
汇聚 层 


资源 层 
构造 层 





功 能 
| 按照 某 种 可 控 的 方式 使 用 共享 资源 的 应 用 | 
| 发现、 代理 、 监 控 和 控制 资源 组 | 
|_ 安 全 可 控 的 访问 单独 的 各 种 资源 | 
| 物理 资源 : 计算 机 、 存 储 、 网 络 、 传 感 器 、 程 序 和 数据 | 


图 8-52 ”网 格 的 层次 结构 


上 面 一 层 是 资源 层 ( resource layer )， 负 责 管理 单独 的 各 种 资源 。 在 很 多 情况 下 ， 加 入 网 
格 的 资源 都 有 本 地 的 进程 来 进行 管理 ， 而 且 允 许 远程 用 户 对 资源 进行 可 控制 的 访问 。 这 一 层 
提供 给 更 高 层 统一 的 接口 ， 从 而 可 以 查询 资源 的 特征 与 状态 、 监 测 资源 ， 通 过 安全 的 方式 使 
用 资源 。 

接着 是 处 理 成 组 资源 的 汇聚 层 (collective layer )。 这 一 层 的 功能 之 一 就 是 资源 发 现 ， 通 
过 资源 发 现 用 户 可 以 查找 可 用 的 CPU 周期 、 磁 盘 空 间 ， 或 者 专用 的 数据 。 汇 聚 层 可 以 使 用 目 
录 或 者 其 他 数据 库 来 提供 这 样 的 信息 。 它 还 能 够 提供 一 种 代理 服务 ， 从 而 使 得 服务 的 提供 者 
和 使 用 者 能 够 互相 匹配 ， 或 者 在 竞争 的 用 户 中 进行 希 缺 资源 的 分 配 。 汇 聚 层 还 负责 复制 数据 ， 
管理 进入 网 格 的 新 用 户 和 资源 的 接纳 控制 ， 进 行 计 费 以 及 维护 资源 如 何 使 用 的 策略 数据 库 等 。 

再 往 上 是 应 用 层 ( application layer )， 驻 留 着 用 户 应 用 。 这 一 层 利 用 下 面 各 层 获取 证 明 其 
具有 使 用 某 些 资源 权利 的 证 书 ， 从 而 提交 使 用 请 求 ， 监 测 请 求 的 处 理 过 程 、 处 理 失败 ， 并 且 
将 结果 通知 用 户 。 
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安全 对 于 一 个 成 功 的 网 格 系统 是 至 关 重 要 的 。 资 源 的 所 有 者 总 是 想 要 对 它们 的 资源 进行 
严格 控制 ， 决 定 谁 能 够 使 用 这 些 资源 ， 能 够 使 用 多 长 时 间 ， 需 要 付出 多 少 费 用 。 没 有 好 的 安 
全 措施 ， 没 有 哪个 组 织 愿 意 将 它们 的 资源 提供 给 网 格 使 用 。 另 一 方面 ， 如 果 用 户 必须 在 每 台 
他 想 要 使 用 的 计算 机 上 都 有 一 个 登录 的 账号 和 密码 ， 那 么 使 用 网 格 将 麻烦 透 项 。 因 此 ， 网 格 
必须 要 开发 出 解决 这 些 问 题 的 安全 模型 。 

安全 模型 的 主要 特征 之 一 就 是 单 点 登录 。 使 用 网 格 的 第 一 步 就 是 通过 证 书 进行 认证 , 证 
书 是 一 个 数字 签名 文件 ， 定 义 了 工作 是 为 谁 完成 的 。 证 书 可 以 进行 委派 ， 所 以 如 果 一 个 计算 
需要 建立 子 计 算 的 时 候 ， 子 进程 也 能 够 被 鉴别 。 当 证 书 位 于 一 台 远 程 的 机 器 上 时 ， 它 必须 被 
映射 到 本 地 的 安全 机 制 。 例 如 ，UNIX 系统 中 用 户 通过 16 位 的 用 户 ID 进行 标识 , 但 是 其 他 
系统 采用 其 他 方案 。 最 后 ， 网 格 需 要 有 相应 的 机 制 来 保证 访问 策略 能 够 声明 、 维 护 和 更 新 。 

为 了 在 不 同 组 织 和 机 器 之 间 提 供 协 同 工 作 的 能 力 ， 就 一 定 要 有 标准 ， 提 供 的 服务 和 对 服 
务 进行 访问 的 协议 都 要 遵循 相应 的 标准 。 网 格 社区 已 经 建立 了 一 个 称 为 全 球 网 格 论坛 ( Global 
Grid Forum, GGF ) 的 组 织 来 管理 标准 化 过 程 。 为 了 部 署 GGF 开发 的 各 种 标准 ， 提 出 了 一 个 
称 为 开放 网 络 服务 架构 (Open Grid Services Architecture, OGSA ) 的 框架 。 只 要 可 能 ，GGF 
就 尽量 使 用 现 有 的 标准 ， 例 如 ， 使 用 WSDL (Web Services Definition Language ) 来 描述 
OGSA 服务 。 标 准 化 的 服务 目前 可 以 分 为 下 面 的 八大 类 ,但 毫 无 疑问 今后 还 会 有 新 的 服务 。 

1 ) 基础 设施 服务 (保证 资源 之 间 进 行 通信 )。 

2) 资源 管理 服务 ( 预 留 和 部 署 资 源 )。 

3) 数据 服务 ( 移动 和 复制 数据 到 需要 它们 的 地 方 )。 

4) 上 下 文 服务 描述 资源 需求 和 使 用 策略 )。 

5) 信息 服务 (获取 资源 可 用 性 的 信息 )。 

6) 自我 管理 服务 (支持 一 定 的 服务 质量 )。 

7) 安全 服务 〈 执行 安全 策略 )。 

8) 执行 管理 服务 ( 管理 工作 流 )。 

关于 网 格 可 以 讨论 的 内 容 还 有 很 多 ,但 是 因为 篇 幅 的 限制 使 得 我 们 不 能 更 加 深入 进行 
探讨 。 有 关 网 格 更 多 的 资料 请 参考 Abramson (2011), Balasangameshwara 和 Raju ( 2012 )、 
Celaya 和 Arronategui ( 2011 )、Foster 和 Kesselman ( 2003 ), Lee (2011) 等 的 相关 工作 。 


8.6 小结 


因为 散热 和 其 他 因素 ,依靠 提高 时 钟 频率 使 得 计算 机 运行 得 更 快 变 得 越 来 越 困 难 。 设 计 
者 不 得 不 寻找 其 他 的 方法 来 提高 计算 机 的 运行 速度 ， 大 多 数 设计 者 将 目光 都 转向 了 并 行 。 并 
行 可 以 从 差别 很 大 的 不 同 层 次 引入 ， 可 以 从 很 底层 紧密 耦合 的 处 理 元 件 开始 ， 直 到 很 高 层 松 
散 耦 合 的 并 行 。 

最 底层 是 芯片 内 部 的 并 行 ， 也 就 是 说 并 行 行为 都 发 生 在 一 个 单独 的 芯片 内 部 。 芯 片 内 并 
行 的 第 一 种 形式 就 是 指令 级 并 行 ， 这 种 并 行 中 一 条 指令 或 者 一 个 指令 序列 能 够 发 射 由 不 同 功 
能 单元 并 行 执行 的 多 个 操作 。 芯 片 内 并 行 的 第 二 种 形式 是 多 线程 ， 这 种 并 行 中 CPU 可 以 在 多 
个 线程 之 间 来 回 切换 ， 产 生出 一 个 虚拟 的 多 处 理 器 。 芯 片 内 并 行 的 第 三 种 形式 是 单 片 多 处 理 
器 ， 这 种 并 行 中 同一 个 芯片 中 设置 了 两 个 或 者 更 多 个 内 核 并 且 人 允许 它们 同时 运行 。 

向上 的 一 个 层次 是 协 处 理 器 ， 典 型 的 协 处 理 器 就 是 一 些 在 某 些 特殊 方面 提供 附件 处 理 能 
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力 的 插件 板 ， 例 如 网 络 协议 处 理 或 者 多 媒体 等 。 这 些 附加 的 处 理 器 能 够 减轻 主 CPU 的 负载 ， 
在 协 处 理 器 进行 某 些 特殊 任务 的 处 理 时 主 CPU 可 以 完成 其 他 工作 。 

再 往 上 的 一 个 层次 是 共享 内 存 的 多 处 理 器 。 多 处 理 器 系统 由 两 个 或 者 更 多 共享 内 存 的 成 
熟 CPU 构成 。UMA 多 处 理 器 通过 共享 ( 监听 ) 总 线 、 交 又 开关 或 者 多 级 交换 网 络 进行 通信 。 
它们 的 特征 是 对 于 所 有 内 存 的 访问 都 有 一 致 的 访问 时 间 。 相 反 ， 虽 然 NUMA 多 处 理 器 也 是 在 
同样 的 共享 地 址 空间 上 运行 进程 ， 但 是 对 远程 内 存 的 访问 时 间 比 本 地 内 存 要 略微 长 一 些 。 最 
后 ，COMA 多 处 理 器 是 另外 一 种 变种 ， 在 COMA 中 cache 块 可 以 根据 需要 在 不 同 的 机 器 间 移 
动 ， 不 像 其 他 设计 那样 有 固定 的 位 置 。 

多 计算 机 是 由 具有 大 量 CPU 但 并 不 共享 公共 内 存 的 系统 构成 的 。 每 个 系统 都 有 自己 的 私 
有 内 存 ， 通 过 消息 传递 的 方式 进行 互相 通信 。MPP 是 使 用 专用 通信 网 络 的 大 型 多 计算 机 系统 ， 
例如 IBM 的 BlueGene/L。 和 集群 是 由 比较 简单 的 非 定制 组 件 构成 的 系统 ， 例 如 Google 的 搜索 
引擎 。 

多 计算 机 系统 通常 使 用 MPI 这 样 的 消息 传递 软件 包 进 行 编程 。 另 一 种 可 以 替代 消息 传递 
软件 包 的 策略 是 使 用 应 用 层 的 共享 内 存 ， 比 如 基于 分 页 的 DSM 系统 、Linda 元 组 空间 和 Orca 
或 Globe 中 的 对 象 。DSM 在 页 面 级 模拟 共享 内 存 ， 这 和 NUMA 计算 机 很 相似 ， 区 别 在 于 
DSM 的 远程 访问 的 开销 要 大 一 些 。 | 

最 后 ， 在 最 顶层 是 最 松散 耦合 的 网 格 。 网 格 系统 通过 互联 网 将 各 种 相关 组 织 联结 在 一 起 ， 
共享 计算 能 力 、 数 据 和 其 他 资源 。 


习题 


. Intel x86 架构 指令 最 长 可 以 达 17 个 字 节 ， 那 x86 架构 CPU 是 一 种 VLIW CPU 吗 ? 

处 理 器 设计 技术 允许 工程 师 在 单个 芯片 上 放置 更 多 个 晶体 管 ，Intel 和 AMD 选择 了 在 单个 
芯片 上 增加 内 核 数 目的 方式 ， 它 们 还 有 其 他 可 以 蔡 代 的 可 行 选择 吗 ? - 

. 如 果 限 幅 范围 是 0 ~ 255, 那么 96、-9、300 和 256 的 限 幅 值 是 多 少 ? 

下 面 这 些 连续 操作 TriMedia 指令 允许 吗 ， 如 果 不 允 许 ， 请 说 明 原因 。 

a. 整数 加 法 、 整 数 减法 、 加 载 、 浮 点 加 法 、 浮 点 立即 数 。 

b. 整数 减法 、 整 数 乘法 、 加 载 立 即 数 、 移 位 、 移 位 。 

c. 加 载 立即 数 、 浮 点 加 法 、 浮 点 乘法 、 转 移 ， 加 载 立 即 数 。 

.图 8-7 中 d 和 e 给 出 了 指令 的 12 个 周期 。 对 于 每 一 个 周期 ,说明 一 下 后 续 的 三 个 周期 都 发 
生 了 什么 。 

. 在 某 种 特殊 的 CPU 中 ， 一 条 指令 在 第 1 级 cache 中 缺失 ， 但 在 第 2 级 cache 中 命中 总 共 要 
使 用 大 个 周期 。 如 果 采 用 多 线程 隐藏 第 1 级 cache 的 缺失 ,那么 使 用 细 粒 度 多 线程 来 避免 
死 周 期 的 话 必须 要 马上 运行 多 少 个 线程 ? 

7. NVIDIA 的 Fermi GPU 的 设计 思想 和 我 们 第 2 章 讨论 的 某 种 系统 结构 比较 相似 ， 是 哪 
一 种 ? 

.一 天 早晨 ， 某 个 蜂 集 的 蜂 后 召集 了 所 有 的 工蜂 给 它们 分 配 当 天 的 工作 ， 采 集 金 人 蔓 花 的 蜜 。 
接受 了 任务 的 工蜂 向 各 个 方向 飞 去 寻找 金 芳 花 。 请 问 这 种 系统 是 SIMD 系统 还 是 MIMD 
系统 ? 

9. 在 我 们 讨论 内 存 一 致 性 模型 的 时 候 ， 曾 经 提 到 过 一 致 性 模型 是 软件 和 内 存 之 间 的 一 种 合同 。 
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请 问 为 什么 需要 这 样 的 合同 呢 ? 

考虑 一 个 共享 总 线 的 多 处 理 器 系统 ， 如 果 两 个 处 理 器 同时 访问 全 局 内 存 会 发 生 什么 情况 ? 

考虑 一 个 共享 总 线 的 如 果 三 个 处 理 器 同时 访问 全 局 内 存 会 发 生 什么 情况 ? 

假定 由 于 某 种 技术 原因 ， 监 听 cache 时 只 能 监听 地 址 线 ， 而 不 能 监听 数据 线 。 这 对 写 直 达 

协议 有 影响 吗 ? 

在 一 台 不 使 用 cache 的 基于 总 线 的 简单 多 处 理 器 系统 中 ,假定 每 四 条 指令 中 就 有 一 条 指令 

访问 内 存 ， 内 存 访问 在 整个 指令 周期 中 都 占用 总 线 。 如 果 总 线 正在 被 别人 使 用 ， 那 么 发 送 

请 求 的 CPU 就 被 放 入 一 个 FIFO 队列 。 如 果 该 系统 有 64 个 CPU， 那 么 它 会 比 单 CPU 系 

统 快 多 少 ? 

. MESI cache 一 致 性 协议 有 四 种 状态 ， 其 他 的 写 回 式 cache 一 致 性 协议 都 只 有 三 种 状态 。 
MESI 中 的 哪个 状态 可 以 不 要 呢 ? 这 样 做 的 结果 是 什么 ?” 如 果 你 只 能 选择 三 种 状态 ， 会 选 
择 哪 三 种 ? 

.在 MESI cache 一 致 性 协议 中 存在 如 下 的 情况 吗 ? 某 个 cache 块 确实 位 于 本 地 cache 中 但 是 
却 需要 通过 总 线 来 寻找 该 块 ” 如 果 存 在 这 种 情况 ， 请 解释 其 原因 。 

. 假定 有 个 CPU 连接 在 同一 条 总 线 上 。 在 某 个 给 定 的 周期 里 ， 任 何 一 个 CPU 使 用 总 线 的 
概率 都 是 p。 计 算出 现下 列 情况 的 出 现 概率 
a. 总 线 空闲 (没有 任何 请 求 )。 

b. 只 有 一 个 请 求 。 
c. 多 于 一 个 请 求 。 

. 试 述 一 下 交叉 开关 的 主要 优 缺 点 。 

一 台 完 整 的 Sun Fire E25K 有 多 少 个 交叉 开关 ? 

. 在 图 8-3 中 omega 交换 网 络 中 假定 交换 节点 2A 和 交换 节点 3B 之 间 的 线路 出 现 了 故障 。 
这 会 导致 哪 两 个 模块 之 间 的 联系 被 切断 ? 

. 热 区 (访问 频繁 的 内 存 区 ) 访问 问题 在 多 级 交换 网 络 中 是 一 个 主要 的 问题 。 基 于 总 线 的 系 
统 中 也 有 这 样 的 问题 吗 ? 

一 个 omega 交换 网 络 连接 了 4096 个 RISC CPU 和 4096 个 访问 速度 无 穷 快 的 内 存 模块 ， 每 
个 CPU 的 周期 是 60 纳 秒 。 每 个 交换 部 件 的 延迟 时 间 是 5 纳 秒 。 那 么 一 条 LOAD 指令 需 
BE Ae AS Bie Ey HB? 

台 使 用 omega 交换 网 络 的 计算 机 ， 和 图 8-31 中 的 那 台 很 类 似 。 假 定 处 理 器 i 的 程序 

和 栈 都 保存 在 内 存 模块 i 中。 请 设计 一 种 能 够 对 性 能 有 较 大 改善 的 拓扑 结构 的 改进 ( IBM 

RP3 和 BBN Butterfly 都 使 用 了 基于 该 结构 改进 的 结构 )。 你 的 新 拓扑 结构 和 原来 的 相 比 有 

什么 缺点 ? 

在 一 台 NUMA 多 处 理 器 系统 中 ， 访 问 本 地 内 存 需 要 20 纳 秒 而 访问 远程 内 存 需要 120 纳 

秒 。 某 个 程序 在 整个 执行 过 程 中 一 共 需 要 访问 N 次 内 存 ， 其 中 对 页 面 P 的 访问 占 1%。 该 

页 在 程序 刚 开始 执行 时 位 于 远程 ， 把 它 拷贝 到 本 地 需要 花费 C 纳 秒 。 在 什么 条 件 下 该 页 应 

该 被 拷贝 到 本 地 而 不 会 影响 其 他 处 理 器 使 用 该 页 ? 

有 一 台 和 图 8-33 中 所 示 的 CC-NUMA 多 处 理 器 系统 类 似 的 计算 机 ， 共 有 512 个 节点 ， 每 

个 节点 有 8MB 内 存 。 如 果 cache 块 大 小 为 64 字 节 ， 那 么 目录 占 内 存 的 比例 是 多 少 ? 节点 

数 的 增加 会 使 目录 比例 增 大 、 减 小 还 是 不 变 ? 

NC-NUMA 和 CC-NUMA 的 主要 区 别 是 什么 ? 
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26. 计算 图 8-37 中 每 种 拓扑 结构 的 网 络 直径 。 


[658] 


27. 计算 图 8-37 中 每 种 拓扑 结构 的 容错 度 ， 容 错 度 是 在 保证 网 络 连通 性 的 前 提 下 网 络 能 够 丢 
失 的 最 多 的 链 路 数量 。 

28. 如 果 把 图 8-37f 所 示 的 双 圆 环 拓 扑 结 构 扩 展 到 xk， 网 络 的 直径 是 多 少 ? 提示 : 需要 分 别 
考虑 上 是 奇数 和 偶数 的 情况 。 

29. 有 一 个 8x 8 x 8 的 立方 体 互联 网 络 ， 每 条 链 路 的 全 双 工 带宽 是 1GB/sec。 请 问 网 络 的 对 分 
带宽 是 多 大 ? 

30. Amdahl 定律 限制 了 并 行 计算 机 能 够 获得 的 最 大 的 加 速 比 。 我 们 把 函数 /定义 为 在 CPU 数 
量 不 限 的 情况 下 程序 能 达到 的 最 大 的 加 速 比 。 请 问 广 0.1 是 什么 含义 ? 

31. 图 8-51 是 总 线 不 能 扩展 而 网 格 网 络 成 功 扩展 的 例子 。 假 定 每 条 总 线 或 者 链 路 的 带宽 为 5， 
请 计算 图 中 四 种 情况 下 每 个 CPU 的 平均 带宽 。 然 后 把 系统 扩展 到 64 个 CPU 并 重复 上 面 
的 计算 过 程 。 当 CPU 的 数量 趋 于 无 穷 时 ， 系 统 将 受到 什么 限制 ? 

32. 在 本 章 中 ， 我 们 讨论 了 三 种 不 同 的 send 方式 : 同步 方式 、 阻 塞 方式 和 无 阻塞 方式 。 请 给 
出 和 阻塞 方式 类 似 的 第 四 种 方式 ， 当 然 要 有 一 些 变化 。 讨 论 你 的 方式 和 阻塞 方式 的 send 
相 比 的 优点 和 缺点 。 

33. 有 一 人 台 使 用 具有 硬件 广播 能 力 网 络 ( 比如 以 太 网 ) 的 多 计算 机 系统 。 为 什么 读 (不 修改 内 
部 状态 变量 ) 写 (修改 内 部 状态 变量 ) 操作 的 比例 和 性 能 相关 ? 
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二 进 制 数 





计算 机 使 用 的 计数 方式 和 人 使 用 的 不 同 。 最 重要 的 区 别 是 计算 机 中 的 操作 数 的 精度 是 有 
限 的 而 且 是 固定 的 。 另 一 个 不 同 之 处 是 计算 机 使 用 二 进 制 表示 法 而 不 是 十 进 制 表示 法 。 本 附 
录 将 讨论 这 些 问题 。 


A.1 有 限 精 度数 


当 人 做 算术 时 ， 很 少 考虑 一 个 数 该 用 多 少 位 十 进 制 数 来 表示 。 物 理学 家 可 以 计算 出 宇宙 
中 一 共有 10 个 电子 而 不 用 担心 要 完整 地 写 出 这 个 数字 需要 79 个 十 进 制 位 。 当 人 们 使 用 纸 和 
笔 计算 函数 值 时 ， 如 果 结 果 需 要 6 位 有 效 数字 ， 那 么 中 间 结 果 可 以 保存 7 位 、8 位 或 者 任何 
需要 的 位 数 ， 从 来 不 会 出 现 因为 纸 的 宽度 不 够 而 只 能 保留 7 位 数字 的 情况 。 

使 用 计算 机 时 ,情况 就 完全 不 同 了 。 在 大 多 数 计算 机 中 ,保存 数 的 内 存 位 数 是 固定 的 ， 
而 且 这 个 位 数 在 计算 机 设计 时 就 定好 了 。 虽 然 经 过 努力 ， 程 序 员 可 以 使 用 两 倍 、 三 倍 或 者 更 
多 倍 的 固定 位 数 来 表示 数 ， 但 是 这 并 没有 改变 问题 的 本 质 。 计 算 机 本 质 上 是 有 限 的 ， 这 就 要 
求 我 们 使 用 固定 的 位 数 来 表示 数 ， 这 样 的 数 我 们 称 为 有 限 精 度数 〈finite-precision number )。 

为 了 研究 有 限 精度 数 的 性 质 ， 我 们 首先 来 看 一 看 用 3 位 十 进 制 数 表示 的 正 整数 集合 ， 不 
包括 小 数 点 和 符号 位 。 该 集合 中 一 共有 1000 个 数 : 000，001，002，003，…，999。 在 这 种 
限制 条 件 下 ， 我 们 不 可 能 表示 出 某 些 类 型 的 数 ， 比 如 : 

1) 大 于 999 的 数 。 

2) 负数 。 

3) 分 数 。 

4) 无 理 数 。 

5) 复数 。 

整数 集合 对 于 加 法 、 减 法 和 乘法 是 封闭 的 ， 这 是 整数 集合 的 一 个 重要 的 特点 。 换 名 话说 ， 
对 于 任意 两 个 整数 i 和 .来 说 ，itj、i5 和 ixj 都 是 整数 。 整 数 集合 对 于 除法 并 不 封闭 ， 因 为 
存在 i 和 j 都 是 整数 而 i 不 能 用 整数 来 表示 的 情况 (例如 ，7/2 和 1/0 )。 

有 限 精 度数 对 于 加 减 乘除 这 四 种 操作 都 不 封闭 ， 下 面 使 用 3 位 十 进 制 数 作为 例子 : 

600+600=1200 (KA) 

003-005=-2 (负数 ) 

050 x 050=2500 (KX) 

007/002=3.5 ( 不 是 整数 ) 

破坏 规则 的 情况 可 以 分 成 互 斥 的 两 大 类 : 一 类 是 运算 结果 大 于 集合 中 的 最 大 数 ( ESSE ) 
或 者 小 于 集合 中 的 最 小 数 (下 溢 错 )， 另 一 类 是 运算 结果 既 不 太 大 也 不 太 小 但 是 并 不 是 集合 中 
的 某 个 数 。 在 上 面 四 个 破坏 规则 的 例子 中 ， 前 三 个 属于 前 一 种 情况 ， 而 第 四 个 例子 则 属于 后 
一 种 情况 。 
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由 于 计算 机 的 内 存 是 有 限 的 ， 因 此 必须 在 有 限 精 度数 上 执行 运算 ， 这 会 导致 某 些 计算 结 
果 从 传统 的 数学 角度 来 看 是 错误 的 。 一 台 在 很 好 的 工作 条 件 下 工作 的 计算 设备 也 会 给 出 错误 
的 答案 ， 这 初 看 起 来 很 奇怪 ， 但 是 这 种 错误 实际 上 是 其 有 限 本 质 的 逻辑 结果 。 某 些 计算 机 有 
特殊 的 硬件 来 检测 溢出 错 。 

有 限 精 度数 的 代数 规律 和 普通 的 代数 规律 不 同 。 举 个 例子 ， 考 虑 结合 律 : 

a+ (b-c ) = (a+b ) -c 
670) 在 a=700、b=400、c=300 的 条 件 下 同时 计算 等 式 两 边 的 值 。 计 算 左 边 时 ， 首 先 计算 (2-c )， 

结果 是 100， 再 加 上 a， 最 后 结果 是 800。 计 算 右 边 时 ， 首 先 计算 (ath), BRUT 3 位 二 
进 制 能 表示 的 范围 ， 也 就 是 出 现 了 溢出 ， 最 后 的 结果 与 计算 机 有 关 但 肯定 不 是 1100。 从 一 个 
不 是 1100 的 数 中 减 去 300 结果 肯定 不 是 800。 这 种 情况 下 结合 律 不 再 成 立 ， 所 以 说 运算 的 顺 
序 很 重要 。 

再 看 一 个 分 配 律 的 例子 : 





ax (b-c) =axb-axc 
在 a=5, b=210, c=195 的 条 件 下 同时 计算 等 式 两 边 的 值 。 左 边 是 5 x 15, 结果 是 7S. HUB 
果 肯 定 不 是 75， 因 为 axb 出 现 了 溢出 。 
从 这 些 例子 中 ， 你 可 能 会 得 出 这 样 的 结论 : 虽然 计算 机 是 通用 计算 设备 ， 但 是 它 的 有 限 
的 本 质 特性 使 它 特别 不 适 于 进行 数学 计算 。 当 然 ， 这 个 结论 并 不 正确 ,但 是 它 却 有 助 于 我 们 
理解 计算 机 的 工作 原理 和 计算 机 的 局 限 性 。 


A.2 数 的 进 制 表示 


大 家 都 熟悉 的 普通 的 十 进 制 数 是 由 一 串 十 进 制 位 和 一 个 小 数 点 (如果 有 ) 组 成 的 。 其 一 
般 形式 和 含义 如 图 A-1 所 示 。 选 择 10 作为 求 寡 的 基 ( 称 为 基数 (radix )) 是 因为 我 们 使 用 的 
是 十 进 制 数 。 使 用 计算 机 时 ， 使 用 非 10 的 基数 更 方便 一 些 。 最 常用 的 基数 是 2、8 和 16。 基 
于 这 些 基数 的 计数 系统 分 别 是 二 进 制 、 八 进 制 和 十 六 进 制 。 


百 六 本 十 分 之 一 下 分 之 一 千 分 之 一 











数值 = Ý x10 
i=-k 


图 A-1 十 进 制 数 的 一 般 形 式 


671 以 上 为 基数 的 计数 系统 需要 上 个 不 同 的 符号 来 表示 0 ~ klo 十 进 制 数 就 是 由 下 面 这 10 
个 十 进 制 位 组 成 的 : 
0123456789 
而 二 进 制 数 就 不 需要 使 用 10 个 不 同 的 阿拉 伯 数 字 。 所 有 的 二 进 制 数 都 可 以 使 用 两 个 二 进 
制 位 来 表示 : 
01 
同样 ， 八 进 制 数 由 下 面 8 个 八进制 位 表示 : 
01234567 
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对 于 十 六 进 制 数 来 说 ， 则 需要 16 个 符号 位 。 因 此 就 需要 6 个 新 的 符号 。 按 照 习 惯 ， 人 们 使 用 
大 写字 母 A ~ F 来 表示 9 之 后 的 6 个 数位 。 这 样 一 来 ， 十 六 进 制 数 就 由 下 面 这 些 位 构成 : 
0123456789ABCDEF 

使 用 0 和 1 表示 的 二 进 制 位 通常 简称 为 位 (bit). FA A-2 中 是 十 进 制 数 2001 分 别 用 二 进 
制 、 八 进 制 和 十 六 进 制 表示 的 结果 。7B9 一 看 就 知道 是 十 六 进 制 的 ， 因 为 只 有 十 六 进 制 中 才 
有 B 这 样 的 符号 。 但 是 ，111 就 很 难看 出 是 哪 种 计数 系统 的 数 。 为 了 避免 出 现 这 种 二 义 性 ， 
当 从 上 下 文中 很 难看 出 使 用 的 计数 系统 时 ， 人 们 往往 使 用 下 标 2、8、10 和 16 来 指明 基数 。 
二 进 制 1 1 1 1 1 0 1 0 0 0 1 


1x210+1x293+1x28+1x27+1x286+0x25+1x24+0x23+0x22+0Xx21+1x20 
1024 + 512 +256 +128 +64 +0 +16 +0 +0 +0 +1 








八进制 “3 7 2 1 
3x89 +7x8?+2x8! +1 x8? 
1536 +448 + 16 +1 


十 进 制 2 0 wl 4 
2x103+0x102+0x101+1x100 
2000 +0 +0 +1 





十 六 进 制 7 D 1 
7 x162+13x16'+1x16° 
1792 +208 +1 





图 A-2 ”分 别 用 二 进 制 、 八 进 制 和 十 六 进 制 表示 的 十 进 制 数 2001 


图 A-3 给 出 了 分 别 使 用 二 进 制 、 八 进 制 、 十 进 制 和 十 六 进 制 来 表示 的 一 组 非 负 整数 。 或 
许 数 千年 后 ， 当 考古 学 家 发 现 了 这 张 表 后 会 把 它 看 成 是 20 世纪 末 和 21 世纪 初 计数 系统 的 罗 
塞 塔 石碑 。 


十 进 制 数 | 三 进 制 数 | 八进制 数 | 十 六 进 制 数 || 十进制 数 
Lt 0 | 0” | 


v — 
> a 


1000110 
1010000 


li001000 | 144 | 
1111101000 1750 3E8 
2989 101110101101 | 5655 BAD 


图 A-3 EEEE AEE E EE 





A.3 进 制 转换 


八进制 或 者 十 六 进 制 数 和 二 进 制 数 之 间 的 转换 很 容易 。 把 二 进 制 数 转 换 成 八进制 时 ， 只 
需要 把 数 中 的 每 3 位 分 成 一 组 ， 小 数 点 左边 和 右边 的 3 位 首先 分 成 一 组 ， 然 后 依次 分 组 。 每 
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个 3 位 组 都 可 以 直接 转换 成 单独 的 八进制 位 0 ~ 7 中 的 一 个 ， 转 换 规则 如 图 A-3 所 示 。 转 换 
时 可 能 需要 在 最 高 位 的 前 面 或 者 最 低位 的 后 面 添加 0 以 形成 三 位 组 。 把 八进制 数 转换 成 二 进 


制 数 也 同样 简单 ， 只 需要 把 每 个 八进制 
位 转换 成 相等 的 3 位 二 进 制 数 。 十 六 进 
制 数 和 二 进 制 数 之 间 的 转换 与 八进制 数 
和 二 进 制 数 之 间 的 转换 基本 相同 ， 不 同 
之 处 只 在 于 每 个 十 六 进 制 位 需要 4 位 二 
进 制 数 来 表示 而 不 是 3 位 。 图 A-4 中 给 
出 了 一 些 转换 的 例子 。 

把 十 进 制 数 转 换 成 二 进 制 数 可 以 使 
用 两 种 不 同 的 方法 。 第 一 种 方法 是 直接 
使 用 二 进 制 数 的 定义 。 先 求 出 比 需要 转 
换 的 数 小 的 2 的 最 大 次 寡 ， 然 后 从 该 数 
中 减 去 这 个 寡 ， 对 得 到 的 结果 重复 上 述 
步 又， 只 要 把 该 数 分 解 成 2 的 各 次 知 的 
和 ， 当 某 次 寡 存 在 时 ， 在 相应 的 二 进 制 
数 的 对 应 位 置 上 填 1， 和 否则 就 填 0， 这 样 
就 得 到 了 转换 的 结果 。 

另 一 种 只 能 用 于 整数 的 方法 是 把 需 
要 转换 的 数 除 以 2， 把 得 到 的 商 写 在 最 初 
的 数 的 下 方 ， 把 余数 、0 或 者 1 写 在 商 的 
旁边 。 然 后 对 商 重复 执行 该 过 程 ， 直 到 
商 为 0 为止。 该 过 程 最 后 会 得 到 两 列 数 ， 
商 和 余数 。 从 低位 向 上 看 余数 列 就 是 转 
换 之 后 的 二 进 制 数 。 图 A-5 中 是 一 个 十 
进 制 数 转换 成 二 进 制 数 的 例子 。 

二 进 制 数 转换 成 十 进 制 数 也 有 两 种 
不 同 的 方法 。 一 种 方法 是 把 二 进 制 数 中 
为 1 的 位 乘 以 2 ARE, FETA 
的 结果 相 加 。 例 如 : 

10110=24+27+2'=16+4+2=22 

另 一 种 方法 步 又 如 下 ， 首 先 把 二 进 
制 数 按 垂直 方向 写 下 来 ， 每 位 占 一 行 ， 








例 1: 
十 六 进 制 1 9 4 8. wt B 6 
SSS aS, ee ees A SS 
二 进 制 0001100101001000.101101100 
一 一 一 一 一 一 一 一 一 一 w 一 一 一 一 
八进制 POF Igi PE a tSr ETE 
例 2: 
十 六 进 制 7 B A 9 mB C 4 
二 进 制 0111101110100011.101111000100 
A 


八进制 7.5. 6 A., 38.68 “T” 0) 4 








图 A-4 八进制 转换 到 二 进 制 与 十 六 
进 制 转换 到 二 进 制 的 例子 


商 余数 


1011101010 0 =1492, 


图 A-5 连续 除 以 2 把 十 进 制 数 1492 转换 成 二 进 制 
数 ， 从 上 向 下 进行 。 例 如 ，93 除 以 2 的 商 是 
46， 余 数 是 1， 把 它们 写 在 93 的 下 面 


最 左边 的 位 在 最 底部 。 位 于 最 底部 的 行 是 第 一 行 ， 上 面 一 行 是 第 二 行 ， 依 此 类 推 。 使 用 二 进 
制 数 旁边 的 一 列 来 计算 十 进 制 数 。 首 先 在 第 一 行 旁边 写 上 1, 第 n 行 的 对 应 值 等 于 第 n-1 行 
的 值 弱 以 2 再 加 上 第 n 行 的 位 (0 或 者 1)。 最 高 行 的 对 应 值 就 是 转换 得 到 的 十 进 制 数 。 图 
A-6 中 是 使 用 这 种 方法 把 二 进 制 数 转换 成 十 进 制 数 的 例子 。 

把 十 进 制 数 转换 成 八进制 数 或 者 十 六 进 制 数 可 以 先 把 十 进 制 数 转 换 成 二 进 制 数 ， 再 把 二 
进 制 数 转换 成 需要 的 进 制 。 也 可 以 通过 刚才 讨论 的 从 十 进 制 数 中 减 去 8 或 者 16 的 寡 的 方法 来 
实现 。 
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1 
| Es oe < 一 一 一 结果 
benera 
1+2x374=749 


0+2x187=374 

1+2x93=187 

1+2x46=93 

0+2x23=46 

1+2x11=23 

1+2x5=11 

1+2x2=5 

0+2x1= 

1+2x0=1 < 一 一 从 这 里 开始 


图 A-6 通过 连续 乘 以 2 把 二 进 制 数 101110110111 转换 成 十 进 制 数 ， 从 最 底部 开始 。 
每 行 都 等 于 下 面 一 行 乘 以 2 再 加 上 对 应 的 位 。 例 如 ，749 就 等 于 2 x 374+1 


A.4 二 进 制 负数 


在 电子 数字 计算 机 的 发 展 历史 中 曾经 出 现 过 4 种 不 同 的 负数 表示 法 。 第 一 种 是 符号 绝对 
值 法 。 在 这 种 表示 法 中 ， 最 左边 的 位 是 符号 位 (0 表示 正 数 ，1 表示 负数 )， 其 余 的 位 是 该 数 
的 绝对 值 。 

第 二 种 表示 法 是 二 进 制 反 码 (one’s complement )， 二 进 制 反 码 同样 使 用 符号 位 ，0 表示 
TER, 1 表示 负数 。 求 某 个 数 的 相反 数 时 ， 把 每 个 1 替换 成 0 而 把 0 替换 成 1。 符号 位 也 同样 
替换 。 二 进 制 反 码 现在 已 经 不 使 用 了 。 

第 三 种 表示 法 是 二 进 制 补 码 (two’s complement )， 同 样 使 用 符号 位 ， 符 号 位 为 0 表示 正 
数 ，! 表示 负数 。 求 某 数 的 相反 数 分 两 步 执 行 。 第 一 步 是 把 每 个 1 替换 成 0， 每 个 0 替换 成 1， 
这 步 和 二 进 制 反 码 一 样 。 第 二 步 把 第 一 步 的 结果 加 1。 二 进 制 数 的 加 法 和 十 进 制 数 的 加 法 是 
一 样 的 ， 区 别 只 在 于 执行 二 进 制 加 法 时 某 位 大 于 1 就 会 产生 进位 ， 而 十 进 制 加 法 大 于 9 才 进 
位 。 举 个 例子 ， 把 6 转换 成 二 进 制 补 码 的 步骤 如 下 : 

00000110 (+6 ) 

11111001 ( -6 的 二 进 制 反 码 表示 ) 

11111010 (-6 的 二 进 制 补 码 表示 ) 

如 果 最 高 位 产生 进位 ， 将 被 丢弃 。 

第 四 种 表示 法 是 余 2”' (excess 2” ) 表示 法 ， 使 用 这 种 表示 法 时 ， 每 个 数 都 用 自身 和 
2” 的 和 表示 。 举 个 例子 ， 如 果 要 表示 8 位 数 ，m=8， 也 就 是 余 128 表示 法 ， 每 个 数 的 存储 
值 都 是 它 的 真 值 加 上 128。 这 样 一 来 ，-3 就 成 了 -3+128=125， 因 此 -3 就 用 八 位 二 进 制 数 
125 (01111101) 来 表示 。 使 用 这 种 表示 法 ，-128 ~ +127 之 间 的 数 被 映射 到 0 ~ 255 之 间 ， 
这 样 它 们 就 都 可 以 表示 成 8 位 正 整数 。 有 趣 的 是 ， 这 种 表示 法 的 结果 和 二 进 制 补 码 相 同 ， 只 
是 符号 位 相反 。 图 A-7 中 给 出 了 用 这 四 种 表示 法 表示 负数 的 例子 。 
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图 A-7 使 用 四 种 表示 法 表示 的 8 位 负数 


在 符号 绝对 值 法 和 二 进 制 反 码 表示 法 中 ，0 都 有 两 个 值 : 正 0 和 负 0。 这 种 情况 是 我 们 不 
希望 看 到 的 。 二 进 制 补 码 表示 法 就 没有 这 个 问题 ， 正 0 的 二 进 制 补 码 还 是 正 0。 当 然 ， 二 进 
制 补 码 表 示 法 也 有 其 特别 之 处 。 一 个 1 后 面 全 是 0 的 数 的 补 码 是 它 本 身 。 这 使 得 补 码 的 正 数 
和 负数 的 表示 范围 不 对 称 ; 有 一 个 负数 没有 相应 的 正 数 和 它 对 应 。 

我 们 比较 容易 就 可 以 找到 出 现 这 些 问 题 的 根源 : 需要 一 个 有 如 下 两 个 特性 的 编码 系统 : 

1) 0 只 有 一 个 值 。 

2 ) 正 数 和 负数 一 样 多 。 

问题 的 关键 在 于 任何 一 个 正 数 和 负数 一 样 多 而 且 只 有 一 个 0 的 集合 都 具有 奇数 个 数 ， 而 
使 用 m 位 来 表示 数 时 表示 范围 是 偶数 个 数 。 因 此 无 论 选择 哪 种 表示 法 ,表示 法 总 会 比 需要 表 
示 的 范围 多 一 个 值 。 这 个 多 出 来 的 值 可 以 用 来 表示 -0 或 者 是 一 个 大 的 负数 ， 或 者 用 于 其 他 的 
HR, 但 是 无 论 它 的 用 途 如 何 ， 它 始终 是 个 麻烦 。 


A.5 二进制 运算 
二 进 制 加 法 表 如 图 A-8 所 示 。 ji io 0 i 
两 个 二 进 制 数 相 加 ， 从 最 右边 的 位 开始 把 加 数 和 被 “被 加 数 ， 区 tt 40 


加 数 的 对 应 位 相 加 。 如 果 产 生 了 进位 ， 就 向 左 进 一 位 ， Be & + 3 


这 和 十 进 制 加 法 一 样 。 使 用 二 进 制 反 码 时 ， 如 果 最 高 位 图 A-8 二进制 加 法 表 
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产生 了 进位 ， 还 要 把 该 进位 值 加 到 结果 的 最 后 一 位 。 该 过 程 被 称 为 循环 进位 〈end-around 
carry )。 使 用 二 进 制 补 码 时 ， 对 最 高 位 进位 的 处 理 很 简单 ， 直 接 丢 弃 。 二 进 制 运算 的 例子 如 





图 A-9 所 示 。 十 进 制 数 二 进 制 反 码 二 进 制 补 码 
在 加 数 和 被 加 数 的 符号 位 相反 的 情况 下 不 会 ” “ TE Itt ae li de ve eT 

发 生 溢出 。 如 果 它 们 的 符号 位 相同 而 结果 的 符号 ，( 纪 Tinto Traitor 

位 与 它们 相反 ， 就 说 明 发 生 了 溢出 而 且 结果 是 错 ”> + a EE 

误 的 。 无 论 使 用 反 码 还 是 补 码 ， 当 且 仅 当 向 结果 | 

符号 位 的 进位 和 符号 位 产生 的 进位 不 同时 会 产生 1 BH 

溢出 。 大 多 数 计 算 机 都 保存 符号 位 的 进位 ， 但 是 00000111 


向 符号 位 的 进位 从 结果 中 是 看 不 出 来 的 。 因 此 ， 图 A-9 二 进 制 反 码 和 二 进 制 补 码 加 法 
计算 机 中 一 般 都 提供 专用 的 溢出 位 。 


习题 


1. 把 下 面 的 数 转换 成 二 进 制 : 1984、4000 和 8192。 

2. 分 别 写 出 二 进 制 数 1001101001 的 十 进 制 值 、 八 进 制 值 和 十 六 进 制 值 。 

3. 下 列 哪些 是 合法 的 十 六 进 制 数 ? BED、CAB、DEAD、DECADE、ACCEDED、BAG 和 
DAD. 

4. 用 2 ~ 9 这 8 种 不 同 的 基数 分 别 表示 十 进 制 数 100. 

5. 使 用 r 作为 基数 的 位 数 串 一 共 可 以 表示 多 少 个 不 同 的 正 数 ? 

6. 由 于 大 多 数 人 都 只 有 10 根 手指 ， 他 们 只 能 用 手指 数 到 10。 而 计算 机 科学 家 可 以 数 得 更 多 
一 些 。 他 们 把 每 根 手指 看 成 是 一 个 二 进 制 位 ， 手 指 伸 出 表示 1， 弯 曲 表示 0， 请 问 计 算 机 科 
学 家 使 用 这 种 方式 能 数 到 的 最 大 的 数 是 多 少 ? 如 果 再 加 上 脚趾 呢 ? 如 果 使 用 左 脚 的 大 拇指 
作为 符号 位 来 表示 二 进 制 补 码 数 ， 那 么 可 以 表示 的 范围 是 多 大 ? 

7. 计算 下 列 8 位 二 进 制 补 码 数 的 加 减法 。 


00101101 11111111 00000000 11110111 
+01101111 +11111111 — 11111111 — 11110111 


8. 在 使 用 二 进 制 反 码 的 条 件 下 重复 上 一 题 中 的 运算 。 

9. 计算 下 列 的 二 进 制 补 码 表 示 的 3 位 二 进 制 数 的 加 法 。 对 每 个 和 ， 讨 论 : 
a. 结果 的 符号 位 是 否 是 1。 
b. 最 低 三 位 是 否 为 0。 


c. 是 否 产生 了 溢出 。 
000 000 111 100 100 
+001 +111 +110 +111 + 100 


10. 带 符号 的 n 位 十 进 制 数 可 以 使 用 不 带 符号 的 n+1l 位 来 表示 。 正 数 的 最 高 位 是 0。 负数 则 每 
位 都 是 9 减 去 该 位 原来 的 值 。 因 此 -014725 就 表示 为 985274。 这 种 数 被 称 为 十 进 制 反 码 
数 ， 和 二 进 制 反 码 数 类 似 。 请 把 下 列 数 表示 成 3 位 十 进 制 反 码 数 : 6、-2、100、-14、-1 和 0。 

11. 定义 十 进 制 反 码 数 的 加 法 规则 并 计算 下 面 的 加 法 。 


0001 0001 9997 9241 
十 9999 十 9998 + 9996 + 0802 
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679) 12. 十 进 制 补 码 类 似 于 二 进 制 补 码 。 十 进 制 补 码 的 负数 就 是 把 对 应 的 十 进 制 反 码 加 1 并 忽略 符 
号 位 之 后 得 到 的 。 请 问 十 进 制 补 码 的 加 法 规则 是 什么 ? 
13. 构造 以 3 为 基数 的 数 的 乘法 表 。 
14. 执行 二 进 制 数 0111 和 0011 的 乘法 操作 。 
15. 编写 一 个 程序 ， 按 照 ASCII 字符 串 方 式 接收 一 个 带 符号 的 十 进 制 数 然后 输出 对 应 的 二 进 制 
补 码 值 、 八 进 制 值 和 十 六 进 制 值 。 
16. 编写 一 个 程序 ， 接 受 两 个 只 包括 0 和 1 的 32 个 字符 的 ASCII 字符 串 作 为 输入 ， 每 个 字符 
串 表示 一 个 32 位 的 二 进 制 数 。 程 序 的 输出 结果 是 这 两 个 二 进 制 数 相 加 的 结果 ， 仍然 用 32 
680 位 ASCII 字符 串 (0 和 1 ) 表示。 
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浮 点 数 





在 许多 计算 中 ， 使 用 的 数 的 范围 都 相当 大 。 例 如 ， 在 天 文学 的 计算 中 ， 可 能 会 涉及 电子 的 
质量 9x 10”“ 克 ,太阳 的 质量 2 x 10" 克 ， 相 差 的 范围 达到 了 10”。 这 两 个 数 可 以 表示 成 : 


0000000000000000000000000000000000.0000000000000000000000000009 
2000000000000000000000000000000000.0000000000000000000000000000 


进行 计算 时 必须 保证 小 数 点 左面 有 34 位， 右面 有 28 位 。 这 样 结果 就 有 62 位 有 效 数 字 。 在 二 
进 制 的 计算 机 中 ， 必 须 使 用 多 精度 的 计算 来 提供 足够 的 有 效 数 字 。 但 是 ， 我 们 所 知 的 太阳 的 
质量 还 不 到 5 位 有 效 数字 ， 更 不 要 说 62 位 了 。 实 际 上 ， 很 少 有 测量 结果 需要 62 位 有 效 数字 。 
虽然 我 们 可 以 对 所 有 的 中 间 计 算 结果 保留 62 位 有 效 数字 ， 在 打印 最 后 结果 之 前 舍 去 其 中 的 
50 或 者 60 位 ,但 是 这 样 不 仅 浪费 CPU 的 计算 时 间 还 会 浪费 内 存 。 

我 们 需要 的 表示 法 应 该 能 够 把 数 的 表示 范围 和 有 效 数字 分 开 表 示 。 在 本 附录 中 ， 我们 将 
讨论 这 种 表示 法 。 这 种 称 为 浮 点 数 的 表示 法 以 物理 、 化 学 和 工程 中 常用 的 科学 计数 法 为 基础 。 


B.1 浮 点 数 原理 
我 们 熟悉 的 科学 计数 法 就 是 一 种 把 精度 和 表示 范围 分 开 的 表示 法 : 


n= f x 10? 


其 中 / 称 为 尾数 (fraction 或 mantissa ), e 是 一 个 正 整数 或 者 负 整 数 ， 称 为 阶 码 (exponent )。 
计算 机 中 使 用 这 种 表示 法 就 称 为 浮 点 数 。 下 面 是 使 用 浮 点 表示 的 几 个 例子 : 


3.14 =0.314 x10! =3.14 x10° 
0.000001 =0.1 x105 =1.0 x10° 
1941 =0.1941 x 104 =1.941x 10° 


阶 码 的 位 决定 数 的 表示 范围 ， 而 尾数 的 位 数 决 定数 的 精度 。 由 于 可 以 使 用 多 种 方式 表示 同一 
个 数 ， 因 此 有 必要 选择 一 种 作为 标准 。 为 了 研究 这 种 表示 法 的 特点 ， 考 虑 一 种 表示 法 R， 使 
用 带 符号 的 3 位 尾数 ， 表 示范 围 为 0.1 < |/|<1 或 者 为 0， 阶 码 使 用 带 符号 的 两 位 数 。 这 种 表 
示 法 的 表示 范围 按 绝对 值 计 算 从 +0.100x 10” 2] +0.999x10”, 表示 范围 几乎 跨越 了 10 的 
199 次 方 ， 但 是 只 使 用 了 五 位 数字 和 两 个 符号 位 就 可 以 保存 一 个 数 。 

浮 点 数 可 以 用 于 模拟 数学 中 使 用 的 实数 ， 但 是 两 者 之 间 仍 然 存在 着 重要 的 区 别 。 图 B-1 
中 给 出 了 实数 轴 的 粗略 的 划分 ， 实 数 轴 可 以 划分 成 7 个 区 域 : 
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图 B-1 实数 轴 可 以 划分 成 7 个 区 域 


RB 


1) 小 于 -0.999 x 10° 的 大 负数 。 

2) -0.999 x 10” ~ -0.100x 10” 之 间 的 负数 。 

3) 绝对 值 小 于 0.100 x 10” 的 小 负数 。 

4) 0。 

5) 绝对 值 小 于 0.100 x 10” 的 小 正 数 。 

6) 0.100 x 10” ~ 0.999 x 10° 之 间 的 正 数 。 

1) 大 于 0.999 x 10” 的 大 正 数 。 

使 用 三 位 尾数 和 两 位 阶 码 表示 的 数 和 实数 之 间 的 主要 区 别 在 于 前 者 不 能 表示 区 域 1、3、5、 
7 中 的 数 。 如 果 算 术 运 算 的 结果 使 数字 落 在 了 区 域 1 或 者 7， 例如，10”x 10%=10', WAE 
生 上 溢 错 并 导致 结果 不 正确 。 出 现 这 种 问题 的 原因 在 于 表示 法 本 身 的 表示 能 力 是 有 限 的 ， 因 
此 出 现 这 种 问题 也 是 不 可 避免 的 。 同 样 ， 区 域 3 和 5 的 数 也 无 法 表示 。 这 种 情况 称 为 下 溢 错 
(unclerflow error )。 和 上 游 相 比 ， 下 溢 的 结果 并 不 十 分 严重 ， 因 为 区 域 3 和 5 中 的 数 通 常 可 以 
用 0 来 近似 表示 。 例 如 ，1072 元 的 银行 余额 和 0 并 没有 什么 区 别 。 

浮 点 数 和 实数 之 间 的 另 一 个 重要 区 别 是 它们 的 密度 不 同 。 无 论 实 数 x 和 ?多 么 接近 ， 它 
们 之 间 都 存在 另 一 个 实数 。 可 以 用 下 面 的 事实 说 明 这 一 特点 ， 对 于 任意 两 个 不 同 的 实数 x 和 
y, = (x+y ) /2 是 位 于 它们 之 间 的 实数 ， 这 就 是 实数 的 连续 性 。 

而 浮 点 数 则 没有 连续 性 。 使 用 刚才 提 到 的 五 位 数字 、 两 位 符号 位 的 表示 法 只 能 表示 
179 100 个 正 数 ，179 100 个 负数 和 0 (0 可 以 用 多 种 形式 表示 )， 这 样 一 共 可 以 表示 358 201 
个 数 。 在 -10 ~ +0.999 x 10” 之 间 有 无 限 多 的 实数 ， 而 这 种 表示 法 只 能 表示 其 中 的 358 201 
个 。 图 B-1 中 的 点 就 代表 了 这 些 数 。 因 此 很 有 可 能 出 现 计 算 的 结果 不 能 用 这 些 数 来 表示 的 情 
况 ， 即 使 计算 的 数位 于 区 域 2 和 区 域 6 也 一 样 。 例 如 ，+0.100 x 10° 除 以 3 的 结果 就 不 能 用 我 
们 的 表示 法 精确 表示 。 如 果 计 算 的 结果 不 能 精确 地 表示 ， 那 么 就 需要 用 最 接近 它 的 数 来 表示 
它 。 这 称 为 舍 入 (rounding )。 

在 区 域 2 或 者 6 中 可 表示 的 数 之 间 相 隔 的 距离 也 不 是 恒定 的 。+0.998 x 10”~ +0.999 x 10” 
之 间 的 距离 显然 大 于 +0.998 x 10° ~ +0.999x 10° 之 间 的 距离 。 但 是 ， 如 果 使 用 两 个 相 邻 的 数 
之 间 的 比例 来 表示 其 距离 的 话 ， 那 么 在 区 域 2 和 6 中 , 这 一 距离 就 是 一 个 系统 不 变量 了 。 换 
句 话说 ， 舍 人 引起 的 相对 误差 ( relative error ) 对 于 大 数 和 小 数 来 说 都 是 近似 相等 的 。 

虽然 到 目前 为 止 ， 我 们 讨论 的 是 使 用 三 位 
尾数 、 两 位 阶 码 的 表示 法 ,但 是 其 结论 也 同样 
适用 于 其 他 表示 法 。 改 变 尾数 和 阶 码 的 位 数 只 
不 过 移动 区 域 2 和 区 域 6 的 边界 而 已 ， 改 变 的 
只 是 这 两 个 区 域 中 可 以 表示 的 点 的 数量 。 增 加 
尾数 的 位 ， 可 以 增加 点 的 密度 ， 从 而 相应 地 提 
高 表示 的 精度 。 增 加 阶 码 的 位 数 可 以 增 大 区 域 
2 和 区 域 6 并 相应 地 使 区 域 3, 5 和 7 减 小 。 
图 B-2 中 是 采用 浮 点 表示 的 十 进 制 数 在 尾数 和 
阶 码 变 化 的 情况 下 区 域 6 的 近似 边界 。 

计算 机 中 使 用 的 是 这 种 表示 法 的 一 个 变 
体 。 为 了 提高 效率 ， 阶 码 的 基 是 2、4、8 或 者 图 B-2 可 以 表示 的 (没有 规格 化 过 的 ) 浮 点 
16 而 不 是 10， 相 应 的 尾数 就 由 二 进 制 串 、 四 十 进 制 数 的 近似 的 下 界 和 上 界 
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进 制 串 、 八 进 制 串 或 者 十 六 进 制 串 组 成 。 如 果 这 些 尾 数 的 最 高 位 是 0， 就 把 尾数 左 移 一 位 ， 
并 把 阶 码 减 1， 这 样 并 不 会 改变 数 的 值 (除非 出 现 了 下 滋 )。 最 高 位 不 为 0 的 尾数 称 为 规格 化 
(normalized ) 尾数 。 

规格 化 数 要 优 于 非 规格 化 数 ， 因 为 规格 化 数 只 有 一 种 ， 而 非 规格 化 数 有 许多 种 形式 。 
图 B-3 中 给 出 了 使 用 2 作为 基 的 规格 化 浮 点 数 的 例子 。 例 子 中 使 用 的 是 16 位 的 尾数 (包括 符 
号 位 ) 和 7 位 的 阶 码 ,， 使 用 的 是 余 64 表示 法 。 基 数 点 左面 是 阶 码 ， 右 面 是 尾数 。 


例 1: 阶 码 以 2 为 基 
2 P in 26 23 2-0 2-2 2-14 2-16 
ri |， | 
站 | 
AMA O 1010100.0000000000011011 
表示 符号 余 64 表 示 法 尾数 为 1x2- 12.1214 2-141 x6 
的 阶 码 为 


十 





=220(] x2-12 二 1x2-83+1x2-15+1 x2-19)=432 





84-64=20 
为 了 规格 化 ， 尾 数 左 移 11 位 并 从 阶 码 中 减 去 11 
规格 化 O 1001001 1101100000000 0 0 0 =2(1x21+1x22+1x24+1x25)=432 
si 人 
表示 符号 余 64 表 示 法 尾数 为 1x2-LHH1x22+1x2-4+1x2- 
+ RBA 
73-64=9 
例 2: 阶 码 以 16 为 基 
16- 162 16? 164 
Pf 5, 3. -4 
未 规格 化 O 1000101 0000 0000 0001 1011 =16°(1*16°+Bx16")=432 
符号 全 94 表示 法 尾数 为 1x163+Bx16 
+ 
69-64=5 
为 了 规格 化 ， 尾 数 左 移 两 个 十 六 进 制 位 并 从 阶 码 中 减 去 2 
规格 化 0 1000011 0001 1011 0000 0000 =16(1x16'+Bx16?)=432 
表示 。 符号 余 64 表 示 法 Bx16- 
尾数 为 1x16-'+Bx16> 
+ 的 阶 码 为 
67-64=3 








B-3 ”规格 化 浮 点 数 举 例 


B.2 IEEE 754 浮 点 数 标 准 


在 20 世纪 80 年 代 之 前 ， 每 个 计算 机 厂商 都 使 用 自己 的 浮 点 数 标准 。 毫 无 疑问 ， 它 们 肯 
定 是 不 同 的 。 更 糟糕 的 是 ， 其 中 有 些 厂商 的 运算 结果 不 正确 ， 这 是 由 于 一 般 的 硬件 设计 者 对 
于 浮 点 数 的 细节 问题 并 不 十 分 了 解 。 

为 了 改变 这 种 状况 ,IEEE 在 20 世纪 70 年 代 末 成 立 了 一 个 专门 委员 会 负责 对 淫 点 数 进 
行 标准 化 。 标 准 的 制定 目标 不 仅 是 可 以 使 浮 点 数 在 不 同 的 计算 机 之 间 交 换 而 且 可 以 使 硬件 设 
计 者 掌握 一 个 已 知 为 正确 的 计算 模式 。 这 些 工作 的 结果 就 是 IEEE 754 标准 (IEEE，1985 )。 
现在 的 大 部 分 CPU (包括 Intel、SPARC， 和 本 书 中 讨论 的 JVM ) 的 浮 点 指令 都 符合 IEEE 
浮 点 数 标准 。 和 其 他 那些 在 多 种 选择 之 间 妥 协 而 产生 的 不 能 使 任何 一 方 满意 的 标准 不 同 ， 
IEEE 754 是 一 个 不 错 的 标准 ， 其 原因 是 由 于 这 部 分 工作 主要 是 由 一 个 人 完成 的 ， 这 个 人 就 是 
Berkeley 的 数学 教授 William Kahan。 下 面 我 们 就 介绍 该 标准 。 
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标准 中 定义 了 三 种 格式 : 单 精度 (32 位 )、 双 精度 (64 位) 和 扩展 精度 (80 位 )。 其 中 
的 扩展 精度 格式 是 用 于 减少 舍 人 误差 ， 主 要 用 在 浮 点 运算 单元 内 部 ， 因 此 下 面 我 们 不 讨论 这 
种 格式 。 单 精度 和 双 精 度 格式 都 使 用 了 以 2 为 基 的 尾数 和 阶 码 的 余数 表示 。 其 格式 如 图 B-4 
所 示 。 


b) 双 精 度 
图 B-4 IEEE 浮 点 数 格式 


这 两 种 格式 的 第 一 位 都 是 符号 位 ，0 表示 正 数 ，1 表示 负数 。 接 下 来 的 部 分 是 阶 码 ， 单 
精度 数 使 用 余 127 表示 法 ， 双 精度 数 使 用 余 1023 表示 法 。 其 中 的 最 小 值 (0 ) 和 最 大 值 (255 
和 2047 ) 不 用 于 表示 规格 化 数 ， 后 面 将 会 讨论 它们 的 特殊 用 途 。 最 后 一 部 分 是 尾数 ， 单 精度 
数 是 23 位 ， 双 精度 数 是 52 位 。 

规格 化 的 尾数 开始 必须 是 二 进 制 小 数 点 ， 后 面 是 1， 再 往 后 是 尾数 的 剩余 部 分 。 参 加 了 
PDP-11 的 实现 过 程 之 后 ， 标 准 的 作者 认识 到 尾数 中 第 一 位 的 1 并 不 需要 实际 存储 ， 我 们 可 以 
假定 总 有 一 个 第 一 位 的 1 存在 。 因 此 ， 标 准 中 定义 的 尾数 和 通常 有 所 不 同 。 它 是 由 隐 含 的 1、 
隐 含 的 二 进 制 小 数 点 和 23 位 或 者 52 位 二 进 
制 数组 成 的 。 如 果 全 部 的 23 位 或 者 52 位 尾 
数 都 是 0， 尾 数 的 数值 就 是 1.0; 如 果 全 部 都 
是 1， 那么 尾数 的 数值 就 比 2.0 略 小 。 为 了 52 
避免 和 传统 表示 法 混淆 ， 这 种 由 隐 含 的 1、 

隐 含 的 二 进 制 小 数 点 和 23 位 或 者 52 位 表示 
位 组 成 的 数 称 为 有 效 数 ( significand ) 而 不 


WAER. I MARRS RRS, 
范围 是 1 < s<2。 


IEEE 浮 点 数 的 特征 如 图 B-5 所 示 。 作 图 B-5 IEEE 浮 点 数 的 特征 
为 例子 ， 看 一 下 使 用 规格 化 的 单 精度 格式 表 
示 的 数 0.5、1 和 1.5。 它 们 的 十 六 进 制 表示 分 别 是 3F000000、3F800000 和 3FC00000。 

浮 点 数 的 一 个 传统 的 问题 是 如 何 处 理 下 溢 、 上 溢 和 未 初始 化 的 数 。IEEE 标准 明确 规定 了 
这 些 问题 的 解决 办 法 ， 其 部 分 思想 来 自 CDC 6600。 除 了 规格 化 数 之 外 ， 标 准 还 定义 了 其 他 四 
种 数据 类 型 ， 如 图 B-6 所 示 。 

当 运 算 结 果 的 数量 级 小 于 规格 化 浮 点 数 所 能 表示 的 最 小 值 时 ， 该 表示 法 就 出 现 了 问题 。 
以 前 ， 硬 件 都 是 采取 以 下 两 种 策略 ,或 者 把 结果 置 为 0 或 者 产生 一 个 浮 点 下 滋 陷 阱 。 这 两 种 
处 理 方法 都 不 令 人 满意 ， 因 此 IEEE 提出 了 非 规 格 化 数 。 这 类 数 的 阶 码 为 0， 尾 数 由 后 面 的 23 
位 或 者 52 位 给 出 ， 尾 数 最 左面 隐 含 的 1 现在 变 成 了 0。 非 规格 化 数 可 以 很 容易 和 规格 化 数 区 
别 开 ， 因 为 规格 化 数 的 阶 码 不 能 为 0。 
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规格 化 数 任意 的 二 进 制 位 雪 
非 规格 化 数 |+| 0 | 任意 非 零 的 二 进 制 位 品 








= 0 0 

无 穷 大 V1 Tl 0 

we GL oo | serene 
符号 位 


图 B-6 IEEE 的 数据 类 型 


最 小 的 规格 化 单 精 度数 阶 码 为 1 而 尾数 为 0， 表示 的 值 是 1.0 x 22。 而 最 大 的 非 规格 化 
数 的 阶 码 为 0， 尾数 全 1， 表 示 的 是 0.9999999 x 272。 这 两 个 值 几 乎 相等 。 但 是 需要 注意 的 一 
点 是 这 种 数 只 有 23 位 精度 ， 而 规格 化 数 的 精度 是 24 位 。 

随 着 计算 结果 越 来 越 小 ， 阶 码 仍然 是 0， 尾数 的 前 面 几 位 也 将 变 成 0， 这样 不 仅 减 小 了 尾 
数 的 值 也 减 小 了 尾数 的 精度 。 最 小 的 非 0 的 非 规格 化 数 只 有 最 右面 的 一 位 是 1， 其 他 位 全 部 
是 0。 阶 码 代 表 2° 而 尾数 代表 2”， 因 此 值 为 2，，。 这 是 一 种 比较 合理 的 处 理 下 游 的 方法 ， 
它 用 降低 精度 的 方法 来 处 理 下 溢 ， 这 就 可 以 避免 出 现在 结果 不 能 用 规格 化 数 表示 时 直接 变 成 
0 的 问题 。 

使 用 这 种 方式 可 以 表示 两 个 0， 一 个 正 0 和 一 个 负 0， 由 符号 位 来 决定 。 正 0 和 负 0 的 阶 
码 和 尾数 都 是 0。 这 里 同样 ， 最 左 位 隐 含 是 0 而 不 是 1。 

上 溢 则 没有 一 种 合理 的 处 理 方式 。 因 为 左面 已 经 没有 可 用 的 位 组 合 了 。 我 们 可 以 使 用 一 
种 特殊 的 表示 法 来 表示 无 穷 大 ， 由 全 1 的 阶 码 (规格 化 数 中 不 允许 出 现 这 样 的 阶 码 ) 和 尾数 
0 组 成 。 该 数 可 以 用 作 操 作 数 ， 在 进行 算术 运算 时 作为 无 穷 大 来 处 理 。 例 如 ， 无 穷 大 加 任何 
数 都 等 于 无 穷 大 ， 任 何 有 限 的 数 除 以 无 穷 大 都 得 0。 与 之 类 似 ， 任 何 有 限 数 除 以 0 都 等 于 无 
穷 大 。 

那么 无 穷 大 除 以 无 穷 大 是 多 少 呢 ? 结果 没有 定义 。 为 了 应 付 这 种 情况 ， 提 供 了 另外 一 种 
特殊 的 格式 ， 称 为 NaN ( 非 数 字 ，Not a Number )。 它 也 可 以 被 用 作 操 作 数 并 且 结 果 是 可 预 
测 的 。 


习题 


1. 把 下 面 的 数 转换 成 IEEE 单 精度 浮 点 数 格式 。 结 果 用 8 位 的 十 六 进 制 数 表示 。 
a.9 
b. 5/32 
c. —5/32 
d. 6.125 
2. 把 下 列 使 用 十 六 进 制 数 表 示 的 IEEE 单 精度 浮 点 数 转换 成 十 进 制 数 。 
a. 42E48000H 
b. 3F880000H 
c. 00800000H 
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w 


A 


nn 


fon 


ao N 


9. 


d. C7F00000H 


. IBM370 中 使 用 的 单 精 度 浮 点 数 格式 如 下 ， 阶 码 7 位 使 用 余 64 表示 法 ， 尾 数 由 24 位 加 符 


号 位 组 成 ， 符 号 位 在 最 左面 。 阶 码 的 基数 是 16。 表 示 的 格式 是 符号 位 、 阶 码 、 尾 数 。 请 把 
7/64 表示 成 使 用 该 格式 的 规格 化 数 ， 结 果 用 16 进 制 表示 。 


. 下面 的 二 进 制 浮 点 数 由 符号 位 、 余 64 基数 为 2 的 阶 码 和 16 位 的 尾数 组 成 。 请 把 它们 规格 化 


a. 0 1000000 0001010100000001 
b.00111111 0000001111111111 
c. 0 1000011 1000000000000000 


.在 执行 泽 点 加 法 时 ， 必 须 首 先 调整 两 个 数 的 阶 码 (通过 对 尾数 进行 移 位 来 进行 ) 使 它们 


相同 。 然 后 再 对 它们 执行 加 法 ， 如 果 需 要 ， 再 对 结果 进行 规格 化 。 请 计算 IEEE 单 精 度数 
3EE00000H 和 3D800000H 的 和 并 把 结果 用 16 进 制 的 规格 化 数 表示 。 


.小气 鬼 计算 机 公司 准备 设计 一 种 使 用 16 位 浮 点 数 的 计算 机 。0.001 型 中 使 用 的 浮 点 数 由 符 


号 位 、7 位 余 64 的 阶 码 和 8 位 尾数 组 成 ，0.002 型 由 符号 位 、5 位 余 16 的 阶 码 和 10 位 的 尾 
数组 成 。 这 两 种 型 号 都 使 用 2 作为 基数 。 这 两 种 型 号 能 够 表示 的 最 小 的 和 最 大 的 正规 格 化 
数 各 是 多 少 ? 每 种 具有 的 精度 是 十 进 制 多 少 位 ? 你 会 购买 这 两 种 计算 机 吗 ? 


. 有 一 种 情况 会 使 两 个 浮 点 数 的 运算 结果 的 精度 急剧 降低 。 请 问 是 哪 种 情况 ? 
. 某 些 浮 点 运算 芯片 有 内 置 的 求 平方 根 指令 。 这 种 指令 可 以 使 用 迭代 算法 (A Newton- 


Raphson 算法 )。 和 迭代 算法 需要 一 个 初始 的 估计 值 然后 不 断 地 提高 结果 的 精度 。 那 么 怎样 才 
能 快速 地 获得 一 个 浮 点 数 的 平方 根 的 估计 值 呢 ? 
编写 程序 执行 两 个 IEEE 单 精度 浮 点 数 的 加 法 运算 。 每 个 数 都 使 用 32 个 元 素 的 布尔 数组 表示 。 


10. 编写 一 个 程序 执行 两 个 单 精度 浮 点 数 的 加 法 ， 浮 点 数 的 阶 码 使 用 16 为 基数 ， 尾 数 使 用 2 


为 基数 。 最 左面 没有 隐 含 的 1。 规 格 化 数 的 最 左面 4 位 可 以 是 0001, 0010, =, 1111, 但 
是 不 能 是 0000。 对 这 种 浮 点 数 进行 规格 化 时 ， 尾 数 每 左 移 4 位 阶 码 加 1。 
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Structured Computer Organization, Sixth Edition 


汇编 语言 程序 设计 





Evert Wattel 
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任何 计算 机 都 有 自己 的 指令 系统 (ISA )， 它 包括 一 组 寄存 器 、 指 令 和 其 他 一 些 对 底层 程 
序 员 可 见 的 特征 。 指 令 系 统 通 常 也 称 为 机 器 语言 (machine language ), 虽然 这 个 称谓 并 不 十 
分 准确 。 这 个 抽象 层次 上 的 程序 就 是 一 个 很 长 的 二 进 制 数 的 列表 ， 每 条 指令 对 应 一 个 二 进 制 
数 ， 这 些 二 进 制 数 能 够 指明 要 执行 的 指令 是 什么 ， 指 令 的 操作 数 又 是 什么 。 使 用 二 进 制 数 来 
进行 编程 是 相当 困难 的 ， 因 此 所 有 的 机 器 都 有 自己 的 汇编 语言 。 简 单 地 说 汇编 语言 就 是 指令 
集体 系 结构 的 符号 化 表示 ， 例 如 使 用 符号 化 的 名 称 ADD. SUB 和 MUL， 而 不 是 直接 使 用 二 
进 制 数 。 本 附录 是 一 个 面向 特定 CPU 的 汇编 语言 程序 设计 指南 ， 这 个 特定 的 CPU 就 是 Intel 
的 8088。8088 曾经 被 最 初 的 IBM PC 机 所 采用 ， 而 且 现 代 的 Core i7 CPU 正 是 以 8088 为 基础 
发 展 起 来 的 。 另 外 ， 本 附录 也 会 介绍 一 些 能 够 从 互联 网 下 载 的 编程 工具 的 使 用 方法 ， 这 些 工 
具 对 读者 学 习 汇 编 语 言 程序 设计 会 有 所 帮助 。 

本 附录 的 目的 不 是 培养 熟练 的 汇编 语言 程序 员 ， 而 是 帮助 读者 通过 亲身 实践 来 更 好 地 学 习 
计算 机 的 体系 结构 。 因 此 ， 我 们 选择 了 Intel 8088 这 种 简单 的 机 器 作为 我 们 的 运行 实例 。 虽 然 现 
在 8088 已 经 很 少见 了 ， 但 是 每 台 Core i7 机 器 都 可 以 兼容 运行 为 8088 编写 的 程序 。 而 且 Core i7 
机 器 大 部 分 的 核心 指令 和 8088 都 是 相同 的 ， 只 是 8088 使 用 16 位 的 寄存 器 而 Core i7 使 用 32 的 
寄存 器 而 已 。 从 这 个 角度 来 说 ， 本 附录 也 可 以 看 作 是 Core i7 机 器 汇编 语言 程序 设计 的 简要 介绍 。 

为 了 编程 的 需要 ， 任 何 机 器 都 需要 有 自己 的 汇编 语言 ， 程 序 员 对 相应 机 器 的 指令 系统 应 该 
非常 熟悉 。 因 此 ， 本 附录 的 C.1 ~ C.4 节 深 入 介绍 了 8088 的 体系 结构 ， 包 括 存储 器 的 组 织 、 寻 
址 方式 和 指令 集 等 。C.5 节 主 要 对 本 附录 中 使 用 的 汇编 器 进行 了 说 明 ， 我 们 后 面 会 详细 介绍 ， 
这 个 汇编 器 是 免费 使 用 的 。 本 附录 中 使 用 的 符号 和 汇编 器 使 用 的 符号 是 一 致 的 。 附 录 中 使 用 的 
符号 与 这 个 汇编 器 使 用 的 符号 是 一 样 的。 其 他 汇编 器 可 能 用 不 同 的 符号 ， 如 果 读 者 习惯 了 8088 
的 汇编 程序 设计 会 感觉 到 这 个 变化 。C.6 节 主 要 讨论 的 是 一 个 解释 程序 / 跟踪 程序 /调试 程序 的 
工具 ， 这 个 工具 能 够 从 互联 网 上 下 载 ， 利 用 这 个 工具 能 够 帮助 初学 编程 的 程序 员 进 行程 序 调试 。 
C.7 节 详 细 介绍 了 相关 工具 的 安装 和 人 门 知 识 。C.8 节 则 包括 了 程序 、 例 子 、 练 习 和 解决 方案 。 


C.1 概述 


我 们 将 从 介绍 一 些 与 汇编 语言 程序 相关 的 词汇 来 开始 我 们 的 汇编 语言 程序 设计 之 旅 ， 然 
后 通过 一 个 小 例子 来 进一步 说 明 什 么 是 汇编 语言 程序 设计 。 


C.1.1 汇编 语言 
为 了 记忆 方便 任何 汇编 器 都 支持 使 用 助 记 符 (mnemonic )， 例 如 使 用 ADD、SUB 和 
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MUL 等 简短 的 词 来 表示 加 法 、 减 法 和 乘法 等 机 器 指令 。 另 外 ， 汇 编 器 也 允许 用 符号 名 字 
( symbolic name ) 来 表示 常量 和 标号 (label )， 它 们 能 够 指明 指令 和 内 存 地 址 。 大 部 分 的 汇编 
器 都 支持 一 定数 量 的 伪 指令 (pseudoinstruction )， 这 些 伪 指令 虽然 最 后 不 转化 为 ISA 指令 ， 
但 是 汇编 器 能 根据 这 些 伪 指 令 来 引导 汇编 过 程 。 

当 一 个 汇编 语言 编写 的 程序 装 入 汇编 器 (assembler) 的 时 候 ， 汇 编 器 能 够 将 这 个 程序 转 
换 为 能 够 实际 执行 的 二 进 制程 序 ， 这 个 二 进 制程 序 (binary program ) 能 够 在 实际 的 硬件 上 运 
行 。 然 而 ， 初 学 者 在 开始 编写 汇编 语言 程序 的 时 候 往往 会 遇 到 程序 出 错 或 者 异常 结束 这 类 情 
况 ， 而 且 对 为 什么 会 发 生 这 些 错误 一 头 雾 水 。 为 了 使 初学 者 能 够 感觉 到 编写 和 调试 程序 更 容 
易 一 些 ， 有 些 时 候 可 以 不 在 实际 的 硬件 上 运行 二 进 制程 序 ， 取 而 代 之 在 模拟 器 中 运行 它们 ， 
这 样 能 够 一 次 只 执行 一 条 机 器 指令 而 且 可 以 给 出 指令 运行 的 详细 过 程 ， 采 用 这 样 的 方法 有 助 
于 简化 程序 调试 工作 。 当 然 ， 程 序 在 模拟 器 上 运行 可 能 非常 慢 ， 但 程序 运行 速度 慢 一 些 无 关 
紧要 ， 因 为 我 们 不 是 运行 软件 产品 ， 我 们 的 目的 只 是 为 了 更 好 地 学 习 汇编 语言 程序 设计 。 本 
附录 正 是 使 用 了 包含 这 种 模拟 器 的 工具 包 ， 这 个 模拟 器 我 们 称 为 解释 程序 ( interpreter ) 或 者 
跟踪 程序 (tracer )， 它 能 够 分 步骤 地 解释 和 跟踪 二 进 制 程序 的 运行 情况 。 在 本 附录 中 ， 术 语 
“模拟 器 ”、“ 解 释 程序 ”和 “跟踪 程序 ”会 被 交替 使 用 。 通 常 ， 当 我 们 讨论 用 模拟 器 执行 一 
个 程序 的 时 候 称 它 为 “解释 程序 ”"， 当 我 们 讨论 用 模拟 器 调试 一 个 程序 的 时 候 称 它 为 “跟踪 程 
序 ”， 而 实际 上 它们 是 同一 个 程序 。 


C.1.2 一 个 汇编 语言 小 程序 


为 了 使 一 些 抽象 的 概念 能 够 具体 化 ， 我 们 来 考察 一 下 图 C-1 所 示 的 汇编 程序 和 跟踪 程 
序 的 运行 映像 。 图 C-1 给 出 了 跟踪 程序 运行 屏幕 的 映像 。 图 C-1a 显示 的 是 一 个 简单 的 面向 
8088 的 汇编 程序 ， 图 中 感叹 号 后 面 的 数字 是 汇编 程序 源 代码 的 行 号 ， 使 用 行 号 能 够 便于 查 
询 程序 中 的 相关 语句 。 这 个 程序 的 拷贝 能 够 在 本 书 附带 的 资料 中 找到 ， 具 体 来 讲 是 在 目录 
examples 下 面 的 源 文件 HlloWrld.s 文件 中 。 这 个 汇编 程序 和 本 附录 所 讨论 的 所 有 汇编 程序 一 
样 ， 都 以 .s 为 文件 扩展 名 ， 也 就 是 说 以 .s 为 扩展 名 的 文件 是 汇编 语言 程序 的 源 程序 。 图 C-1b 
所 示 的 跟踪 程序 屏幕 上 有 7 个 窗口 ， 其 中 每 一 个 窗口 又 都 包含 着 正在 执行 的 二 进 制程 序 的 不 
同 状态 信息 。 



































_EXIT=1 11 CS: 00 DS=SS=ES: 002 MOV CX,de-hw ! 6 
_WRITE =4 12 AH:00 AL:0c AX: 12 PUSH CX bz 
_STDOUT =1 13 BH:00 BL:00 BX: 0 PUSH HW 1 8 
SECT .TEXT 14 CH:00 CL:0c CX: 12 PUSH _STDOUT lL 9 
start: 15 DH:00 DL:00 DX: 0 PUSH _WRITE 1 10 
MOV CX,de-hw 16 SP: 7fd8 SF ODS Z C/=>0004 11 
PUSH CX 17 BP: 0000 CC - > - 0001 |=> ADD SP,8 112 
PUSH hw 18 Si: 0000 IP:000c:PC 0000 SUB CX,AX riS |y 
PUSH _STDOUT 19 DI: 0000 start +7 000c PUSH CX 114 
PUSH _WRITE 110 E aa 
SYS 111 1 
ADD SP,8 112 
SUB CX,AX 113| | hw 
PUSH CX 114| |m | > Hello World\n 
PUSH _EXIT 115) |hw + 0 = 0000: 48 65 6c 6c 6 20 57 6f Hello World 25928 
SYS 116 
.SECT .DATA 117 
hw: 118 
.ASCII "Hello World\n" ! 19 
de: .BYTE 0 !20 
a) 汇编 语言 程序 b) 对 应 的 跟踪 程序 显示 


图 c-i 
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现在 让 我 们 来 简要 地 看 一 下 图 C-lb 所 示 的 7 个 窗口 。 上 部 有 3 个 窗口 ， 两 边 是 两 个 较 大 693] 


的 窗口 ， 中 间 是 一 个 较 小 的 窗口 。 左 上 方 的 窗口 显示 的 是 处 理 器 的 内 容 ， 包 括 段 寄存 器 CS、 
DS、SS 和 ES， 运 算 寄存 器 AH, AL. AX 以 及 其 他 寄存 器 的 当前 值 。 

上 部 中 间 的 窗口 包含 着 栈 中 的 信息 ， 栈 是 用 于 放置 临时 数据 的 一 块 存储 区 。 

右上 部 的 窗口 显示 的 是 一 段 汇编 语言 程序 ， 箭 头 所 指 的 是 当前 正在 执行 的 指令 。 当 程序 
运行 的 时 候 ， 当 前 正在 执行 的 指令 不 断 变化 ， 箭 头 相应 地 也 要 进行 移动 ， 始 终 指 向 当前 正在 
执行 的 指令 。 跟 踪 程序 的 优点 就 是 当 按 下 键盘 上 的 回 车 键 时 ， 一 条 指令 被 执行 ， 同 时 各 个 窗 
口 的 内 容 也 被 更 新 ， 这 样 就 使 得 能 够 以 慢 动作 一 样 的 方式 来 运行 程序 。 

左 窗口 下 方 的 窗口 包含 的 是 一 个 子 程序 调用 栈 ， 图 中 这 个 窗口 现在 是 空 的 。 此 窗口 的 下 
方 是 跟踪 程序 自己 的 命令 窗口 。 这 两 个 窗口 的 右 侧 是 一 个 用 于 输入 、 输 出 和 给 出 错误 消息 的 
窗口 。 

整个 屏幕 最 底下 的 窗口 显示 的 是 内 存 的 一 部 分 。 在 后 面 的 几 节 中 我 们 将 会 详细 的 讨论 这 
些 窗口 的 功能 与 作用 。 现 在 看 来 基本 思想 还 是 非常 清楚 的 : 跟踪 程序 能 够 显示 源 程序 、 机 器 
寄存 器 的 内 容 以 及 正在 执行 的 程序 的 一 些 状 态 信 息 等 。 当 一 条 指令 被 执行 时 ， 这 些 信 息 将 被 
更 新 ， 从 而 使 用 户 能 够 观察 到 程序 运行 过 程 中 非常 细节 的 东西 。 


C.2 8088 处 理 器 


包括 8088 在 内 的 任何 处 理 器 都 有 一 个 内 部 状态 ， 利 用 这 个 内 部 状态 可 以 保存 某 些 电 路 
信息 的 。 为 了 这 个 目的 ， 处 理 器 中 通常 设置 一 组 寄存 器 用 来 存储 和 处 理 相关 信息 。 这 组 寄存 
器 中 最 重要 的 可 能 就 是 程序 计数 器 PC 了 ， 它 用 来 保存 下 一 条 要 执行 的 指令 在 内 存 中 的 地 址 。 
这 个 寄存 器 有 时 候 也 称 作 指令 指针 (Instruction Pointer，IP )。 指 令 一 般 是 存储 在 内 存 中 的 代 
码 段 中 。 虽 然 8088 能 够 使 用 的 主 存 可 以 达到 IMB, 但 是 当前 代码 段 只 能 使 用 其 中 的 64KB。 
图 C-1 中 的 代码 段 寄 存 器 表明 64KB 的 代码 段 起 始点 在 IMB 内 存 的 范围 内 。 新 的 代码 段 可 以 
通过 改变 CS 寄存 器 的 值 这 样 简单 的 方法 来 激活 。 和 代码 段 类 似 ， 还 有 一 个 64KB 的 数据 段 ， 
数据 段 能 够 指明 数据 的 起 始 地 址 ， 在 图 C-1 中 数据 段 的 起 始点 通过 DS 寄存 器 给 出 ， 如 果 想 
访问 当前 数据 段 以 外 的 数据 ， 只 要 改变 DS 寄存 器 的 值 就 可 以 。8088 需要 CS 和 DS 寄存 器 的 
原因 是 8088 的 寄存 器 都 是 16 位 的 ， 而 表示 1MB 的 内 存 空间 需要 20 位 的 地 址 ，16 位 的 寄存 
器 显然 容纳 不 下 20 位 的 地 址 ， 正 是 这 个 原因 才 引 入 了 代码 段 和 数据 段 寄存 器 。 

8088 其 他 的 寄存 器 用 来 存放 数据 或 者 指向 主 存 中 数据 的 指针 。 在 汇编 语言 程序 中 ， 这 些 
寄存 器 能 够 直接 进行 访问 。 除 了 这 些 寄存 器 之 外 ，8088 处 理 器 还 有 一 些 必需 的 部 件 来 执行 指 
令 ， 这 些 部 件 程序 员 只 能 通过 指令 才能 用 到 。 


C.2.1 处 理 器 周期 


8088 ( 以 及 所 有 其 他 计算 机 ) 的 运转 主要 就 是 一 条 接 一 条 地 执行 指令 。 每 条 指令 的 执行 
可 以 分 解 为 下 列 步 又 : 

1) 利用 PC 从 内 存 中 的 代码 段 取 指 令 。 

2 ) 程序 计数 器 加 1。 

3 ) 对 取 来 的 指令 译 码 。 

4) 从 内 存 或 者 处 理 器 的 寄存 器 中 取 必 需 的 数据 


6 a ut T 


5) 执行 指令 。 

6) 把 指令 执行 结果 存 信 内存 或 者 寄存 器 。 

7) 回 到 第 一 步 开始 执行 下 一 条 指令 。 

一 条 指令 的 执行 过 程 有 点 像 运行 一 个 小 程序 。 实 际 上 ， 一 些 机 器 实际 是 用 一 个 称 为 微 程 
序 的 小 程序 来 执行 它们 的 指令 。 微 程序 在 第 4 章 中 我 们 已 经 进行 了 详细 说 明 。 

从 汇编 语言 程序 员 的 角度 来 看 ，8088 有 一 组 共 14 个 寄存 器 。 这 些 寄存 器 在 某 种 意义 上 
来 说 就 是 指令 操作 的 临时 存储 区 ， 尽 管 这 个 存储 区 的 内 容 是 易 失 的 。 图 C-2 给 出 了 这 14 个 寄 
存 器 的 概况 。 很 明显 此 图 和 图 C-1 中 跟踪 程序 的 寄存 器 窗口 很 相似 ， 这 是 因为 二 者 本 来 表示 
的 信息 就 是 相同 的 。 

















图 C-2 8088 的 寄存 器 


8088 的 寄存 器 都 是 16 位 宽 。 虽 然 没 有 哪 两 个 寄存 器 在 功能 上 完全 相同 ， 但 是 它们 有 些 
还 是 具有 一 些 共同 的 特征 ， 所 以 在 图 C-2 中 将 这 些 寄存 器 又 分 成 不 同 的 组 。 下 面 我 们 就 对 各 
组 寄存 器 进行 讨论 。 

C.2.2 通用 寄存 器 


第 一 组 寄存 器 AX, BX. CX 和 DX 是 通用 寄存 器 (general register )。 这 组 中 的 第 一 个 寄 
存 器 是 AX， 称 为 累加 寄存 器 (accumulator register), AX 寄存 器 主要 用 来 收集 计算 结果 ， 因 
此 它 成 为 很 多 指令 的 目标 寄存 器 。 尽 管 每 个 寄存 器 都 能 作为 任务 的 宿主 寄存 器 ， 但 在 一 些 指 
Sh AX 仍 是 作为 隐 式 的 目的 寄存 器 ， 例 如 在 乘法 中 指令 中 就 是 如 此 。 

这 组 中 的 第 二 个 寄存 器 是 BX， 称 为 基 址 寄存 器 (base register )。 在 很 多 用 途中 BX 和 
AX 的 用 法 是 完全 一 样 的 ， 但 是 BX 具有 AX 所 没有 的 一 种 能 力 。 这 就 是 BX 中 可 以 存放 内 存 
地 址 ， 执 行 指 令 的 时 候 相应 的 操作 数 就 来 自 BX 中 内 存 地 址 指向 的 内 存单 元 ，AX 寄存 器 没有 
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这 样 的 功能 。 为 了 说 明 这 个 问题 ， 下 面 我 们 来 比较 两 条 指令 。 我 们 先 看 第 一 条 指令 


MOV AX,BX 

这 条 指令 把 BX 寄存 器 中 的 内 容 拷贝 到 AX 寄存 器 中 。 我 们 再 看 第 二 条 指令 

MOV AX,(BX) 

这 条 指令 把 BX 寄存 器 中 内 存 地址 所 指向 的 主 存 字 的 内 容 拷贝 到 AX 寄存 器 中 。 在 第 一 条 指令 
中 ，BX 中 存放 的 是 源 操作 数 ， 而 在 第 二 条 指令 中 BX 仅 是 指向 源 操作 数 。 在 上 述 这 两 个 例子 
中 MOV 指令 都 有 一 个 源 操 作 数 和 一 个 目的 操作 数 ， 并 且 目 的 操作 数 也 在 源 操 作 数 之 前 。 

下 一 个 通用 寄存 器 是 CX， 称 为 计数 寄存 器 ( counter register )。 除 了 完成 许多 其 他 任务 之 
外 ， 这 个 寄存 器 还 专门 用 于 循环 计数 。 在 LOOP 指令 中 CX 寄存 器 具有 自动 减 一 的 功能 ， 当 
CX 值 达到 零 的 时 候 就 中 止 循环 。 

第 四 个 通用 寄存 器 是 DX， 称 为 数据 寄存 器 ( data register )。 它 通常 和 AX 寄存 器 一 起 用 于 
双 字 长 度 (例如 32 位 ) 指令 。 在 这 种 情况 下 ，DX 中 存放 高 16 位 而 AX 中 存放 低 16 位 。 通 常 
32 位 的 整数 用 long 这 个 术语 来 表示 。 而 术语 double 通常 用 来 表示 64 位 的 浮 点 值 ， 有 些 人 也 使 
用 double 来 表示 32 位 整数 。 在 本 指南 中 不 存在 这 种 冲突 ， 因 为 我 们 根本 就 不 讨论 浮 点 数 。 

所 有 这 些 通 用 寄存 器 都 既 可 以 看 作 是 一 个 16 位 的 寄存 器 ， 又 可 以 看 作 是 一 对 8 位 的 寄 
存 器 。 这 样 来 看 ，8088 就 正好 有 8 个 不 同 的 8 位 寄存 器 ， 这 些 8 位 的 寄存 器 可 以 用 在 字 节 和 
字符 指令 中 。 除 了 这 几 个 寄存 器 之 外 ， 其 他 的 寄存 器 都 不 能 分 成 两 个 8 位 的 寄存 器 。 有 些 指 
令 使 用 整个 16 位 寄存 器 ， 如 AX， 而 有 些 指令 只 使 用 寄存 器 的 一 半 ， 如 AL 或 者 AH。 一 般 
而 言 ， 指 令 使 用 完整 的 16 位 寄存 器 进行 算术 运算 ， 而 使 用 8 位 的 寄存 器 来 处 理 字符 。 无 论 如 
何 ， 我 们 必须 认识 到 AL 和 AH 只 是 AX 寄存 器 两 个 不 同 部 分 的 名 称 而 已 。 当 AX 中 加 载 了 新 
fi, AL 和 AH 也 随 之 更 改 为 所 加 载 值 的 低 8 位 和 高 8 位。 为 了 和 弄 清 楚 AX. AH 和 AL 的 互 
相 影 响 ， 我 们 可 以 考虑 下 面 的 指令 


MOV AX,258 


这 条 指令 把 十 进 制 的 258 加 载 到 AX 寄存 器 中 。 指 令 结束 之 后 ， 字 节 寄 存 器 AH 中 的 值 就 为 
1， 字 节 寄 存 器 AL 中 的 值 为 2。 如 果 这 条 指令 之 后 紧 跟 着 一 条 字 节 加 法 指令 


ADDB AH,AL 


那么 字 节 寄存 器 AH 的 值 就 会 加 上 AL (2) 中 的 值 ， 也 就 是 说 AH 的 值 现在 是 3。 这 条 指令 的 
行为 对 AX 寄存 器 会 有 影响 ， 现 在 AX 值 为 十 进 制 的 770， 也 就 是 二 进 制 的 00000011 00000010 
或 者 16 进 制 的 0x03 0x02。 这 8 个 字 节 宽度 的 寄存 器 基本 上 都 是 可 以 互 换 使 用 的 ， 只 有 下 面 
的 情况 下 例外 。 在 MULB 指令 中 AL 总 是 包含 一 个 操作 数 ， 而 且 AL 和 AH 一 起 构成 了 此 字 
节 乘 法 指令 的 隐 式 目的 寄存 器 。DIVB 指令 也 使 用 AH : AL 对 来 存放 被 除数 。 计 数 寄存 器 的 
低位 字 节 CL 可 以 存放 在 移 位 和 旋转 指令 中 使 用 的 循环 次 数 。 

C.8 节 中 的 例 2 通过 分 析 讨 论 汇 编程 序 GenReg.s 进 一 步 展示 了 通用 寄存 器 的 属性 。 


C.2.3 ”指针 寄存 器 


第 二 组 寄存 器 由 指针 寄存 器 和 变 址 寄存 器 (index register) 组 成 ， 这 组 寄存 器 中 最 重要 的 
寄存 器 是 栈 指针 ， 用 SP (stack pointer) 来 表示 。 在 绝 大 部 分 编程 语言 中 栈 都 是 相当 重要 的 。 
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栈 是 一 个 存放 当前 正在 运行 的 程序 上 下 文 信息 的 内 存 段 。 通 常 ， 当 调用 一 个 过 程 的 时 候 ， 
栈 的 一 部 分 就 用 来 保存 这 个 过 程 的 局 部 变量 ， 还 有 过 程 结束 时 的 返回 地 址 以 及 其 他 控制 信 
息 等 。 和 过 程 相 关 的 栈 部 分 称 为 栈 结构 (stack frame )。 当 一 个 被 调用 的 过 程 调用 另 一 个 过 
程 的 时 候 ， 就 会 再 分 配 一 个 栈 结构 ， 一 般 而 言 这 个 新 的 栈 结构 就 在 当前 的 栈 结构 之 下 。 总 
之 ， 只 要 有 新 的 调用 就 会 在 当前 栈 结构 之 下 再 分 配 新 的 栈 结 构 。 虽 然 不 是 强制 性 的 ， 但 是 
栈 总 是 向 下 增长 ， 也 就 是 说 从 高 地 址 向 低地 址 方向 增长 。 不 过 ， 栈 占用 的 最 低地 址 总 是 被 
称 为 栈 顶 。 

栈 除 了 具有 保存 局 部 变量 的 功能 之 外 ， 还 能 用 来 保存 中 间 结 果 。8088 有 一 条 PUSH 指令 ， 
功能 是 把 16 位 的 字 放 到 栈 顶 ， 这 条 指令 先 把 SP 的 值 减 2， 然 后 在 SP 当前 所 指向 的 地 址 存储 
它 的 操作 数 。 类 似 地 ，POP 指令 从 栈 顶 移 除 一 个 16 位 的 字 ， 这 个 16 位 的 字 是 通过 取出 栈 顶 
的 值 来 获得 的 ， 然 后 将 SP 的 值 增 2。SP 寄存 器 指向 栈 顶 ， 能 够 被 PUSH、POP 和 CALL 指 
令 修改 。PUSH 和 CALL 指令 减少 SP 的 值 ，POP 指令 则 增加 SP 的 值 。 

这 组 中 的 下 一 个 寄存 器 是 基 址 寄存 器 (Base Pointer，BP )。 此 寄存 器 通常 存放 栈 中 的 一 
个 地 址 。 和 SP 总 是 指向 栈 顶 不 同 ，BP 可 以 指向 栈 中 的 任何 位 置 。 实 际 上 ，BP 的 一 种 最 为 
常见 的 用 法 是 用 它 来 指向 当前 过 程 栈 结构 的 起 始 位 置 ， 这 样 有 利于 方便 地 找到 过 程 的 局 部 变 
量 。 简 而 言 之 ，BP 就 经 常用 来 指向 当前 栈 结 构 的 底部 (具有 最 高 数值 的 栈 结 构 字 )， 而 SP 
指向 当前 栈 结构 的 顶部 (具有 最 低 数值 的 栈 结构 字 )。 从 而 当前 栈 结构 就 由 BP 和 SP 确定 了 
上 下 界 。 

在 这 个 寄存 器 组 中 还 有 两 个 变 址 寄存 器 : 源 变 址 寄存 器 ( Source Index, SI) 和 目的 变 址 
寄存 器 (Destination Index，DI )。 这 两 个 寄存 器 通常 和 BP 结合 使 用 ， 来 对 栈 中 的 数据 进行 寻 
址 。 它 们 也 可 以 和 BX 一 起 使 用 ， 共 同形 成 数据 存储 位 置 的 地 址 。 有 关 这 两 个 寄存 器 的 其 他 
用 法 我 们 在 寻 址 模式 一 节 中 还 会 介绍 。 

这 些 寄存 器 的 重 中 之 重 就 是 自 成 一 组 的 指令 指针 寄存 器 ，Intel 称 这 个 寄存 器 为 程序 计数 
器 (PC )。 这 个 寄存 器 不 能 直接 在 指令 中 用 来 寻 址 ， 它 存放 的 是 内 存 中 程序 代码 段 的 一 个 地 
址 。 处 理 器 指令 周期 正 是 从 取得 PC 所 指向 的 指令 开始 的 。 在 当前 指令 尚未 执行 完 的 时 候 ， 
就 进行 了 增 量 操作 。 通 过 这 种 方法 ， 程 序 计数 器 就 总 是 能 够 指向 当前 指令 后 继 指 令 中 的 第 一 
条 指令 。 

标志 位 寄存 器 (flag register) 或 者 条 件 码 寄 存 器 (condition code register) 实际 上 是 一 组 
单个 的 二 进 制 位 组 成 的 寄存 器 。 这 些 二 进 制 位 有 的 是 算术 运算 指令 根据 指令 执行 结果 来 设置 ， 
例如 下 面 这 些 标 志 位 : 

Z 一 一 结果 为 0 标志 。 

S 一 一 结果 为 负数 标志 (符号 位 )。 

V 一 一 结果 溢出 标志 。 





C 一 一 结果 产生 进位 标志 。 
A 一 一 辅助 进位 标志 。 
P 一 一 结果 奇偶 标志 。 





标志 位 寄存 器 的 其 他 位 用 于 处 理 器 某 些 特定 情况 下 的 控制 操作 。 位 了 用 来 控制 是 否 人 允许 
中 断 ， 位 了 用 来 控制 是 否 允 许 跟踪 模式 ( 主要 用 于 调试 )， 位 九 则 用 来 控制 字符 串 操作 的 方 
向 。 标 志 寄 存 器 中 的 16 位 并 没有 都 用 到 ， 那 些 不 用 的 二 进 制 位 就 强制 地 设 为 0。 

在 段 寄存 器 组 (segment register group) 还 有 4 个 寄存 器 。 回 顾 一 些 前 面 讲 的 栈 ,数据 和 
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指令 码 都 驻 留 在 主 存 中 ， 但 是 它们 分 别 位 于 不 同 部 分 。 这 些 段 寄存 器 就 是 管理 内 存 的 不 同 部 
分 的 ， 内 存 的 不 同 部 分 就 是 段 。 其 中 ，CS 称 为 代码 段 寄存 器 ，DS 称 为 数据 段 寄存 器 ，SS 称 
为 栈 段 寄 存 器 ，ES 称 为 附加 段 寄存 器 。 大 多 数 时候 这 些 寄存 器 的 值 是 不 会 改变 的 。 实 际 上 ， 
数据 段 和 栈 段 使 用 相同 的 内 存 段 ， 只 是 数据 段 使 用 该 段 的 底部 ， 而 栈 段 使 用 该 段 的 顶部 。 这 
些 寄存 器 将 在 C.3.1 节 中 有 更 详细 的 说 明 。 


C.3 内存 与 寻 址 


8088 由 于 要 将 IMB 的 内 存 和 16 位 的 寄存 器 结合 起 来 使 用 ， 结 果 就 使 得 它 的 内 存 组 织 看 着 
有 些 乱 。1MB 的 内 存 需 要 20 位 的 内 存 地 址 来 表示 ， 这 就 导致 了 在 16 位 的 寄存 器 中 存储 一 个 指 
向 内 存 的 指针 是 不 可 能 的 。 为 了 解决 这 个 问题 ， 内 存 就 按 段 的 方式 来 组 织 ， 每 段 64KB， 这 样 每 
段 内 存 的 段 内 地 址 都 能 用 16 位 来 表示 。 下 面 我 们 就 来 看 看 8088 内 存 体系 结构 的 一 些 细节 。 


C.3.1 内 存 组 织 与 分 段 


8088 的 内 存 由 可 寻 址 的 8 位 字 节 简单 排列 而 成 ， 用 于 存放 指令 ， 同 时 也 用 于 存放 数据 和 
栈 。 为 了 区 分 用 于 不 同 用 途 的 内 存 的 不 同 部 分 ，8088 采用 了 段 的 方式 ， 段 是 具有 某 种 特定 用 
途 的 独立 内 存 块 。8088 的 每 一 个 段 都 由 连续 的 65 536 个 字 节 构成 ， 共 有 4 个 段 : 

1) 代码 段 。 

2 ) 数据 段 。 

3 ) 栈 段 。 

4) 附加 段 。 

代码 段 用 来 存放 程序 指令 。PC 寄存 器 的 内 容 实际 上 就 是 代码 段 中 的 一 个 内 存 地 址 。 当 
PC 值 为 0 时 它 指 向 的 是 代码 段 的 最 低地 址 ， 而 不 是 绝对 的 内 存 零 地 址 。 数 据 段 用 来 存放 初始 
化 或 者 未 初始 化 的 数据 。BX 寄存 器 中 的 指针 就 是 指向 数据 段 的 。 栈 段 用 来 存放 局 部 变量 以 及 
压 入 栈 的 中 间 结 果 。SP 和 BP 中 的 地 址 其 实 总 是 位 于 栈 段 的 。 附 加 段 是 一 个 备用 的 段 寄 存 器 ， 
可 以 放置 在 内 存 中 任何 需要 的 地 方 。 

每 一 个 段 都 有 一 个 对 应 的 16 位 的 段 寄 存 器 : CS、DS、SS 和 ES。 段 的 起 始 地 址 是 一 个 
20 位 的 无 符号 整数 ， 它 是 将 段 寄 存 器 的 内 容 左 移 4 位 并 在 最 右 端的 4 位 填充 0 而 构成 的 。 这 
就 意味 着 段 寄 存 器 表示 的 总 是 20 位 地 址 空间 中 16 的 倍数 。 段 寄存 器 指向 的 是 段 的 基 址 。 段 
内 地 址 可 以 这 样 计 算 ， 先 将 16 位 的 段 寄存 器 的 值 转换 为 后 面 补 了 4 个 0 的 真正 的 20 位 地 址 ， 
然后 将 这 个 20 位 的 地 址 再 加 上 有 段 内 的 偏 移 量 ， 这 样 计 算出 的 地 址 就 是 需要 的 段 内 地 址 了 。 实 
际 上 就 是 用 段 寄 存 器 的 值 乘 以 16， 然 后 再 加 上 段 内 偏 移 量 来 计算 这 个 绝对 内 存 地 址 。 举 个 
例子 ， 如 果 DS 等 于 7，BX 是 12,， 那么 BX 所 表示 的 地 址 就 是 7x 16+12=124。 也 就 是 说 ， 
DS=7 表示 的 20 位 的 二 进 制 地 址 是 00000000000001110000， 加 上 16 位 的 相对 于 有 段 起 始点 的 
偏 移 量 0000000000001100 (十 进 制 的 12 )， 得 到 的 就 是 .20 位 的 地 址 00000000000001111100 
(十 进 制 的 124 )。 

每 一 次 的 内 存 访问 ， 肯 定 都 有 一 个 段 寄存 器 用 来 构造 实际 的 内 存 地 址 。 如 果 某 些 指 令 使 
用 了 直接 地 址 而 没有 涉及 寄存 器 ， 那 么 这 个 地 址 自动 默认 为 是 数据 段 的 地 址 ， 这 种 情况 下 Ds 
用 来 确定 段 的 基 址 ， 物 理 地 址 就 由 Ds 的 值 加 上 指令 中 的 地 址 来 形成 。 下 一 条 指令 码 的 内 存 物 
理 地 址 则 是 通过 将 CS 寄存 器 的 值 左 移 4 位 然后 再 和 程序 计数 器 的 值 相 加 得 到 。 也 就 是 先 计 算 
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16 位 的 CS 寄存 器 表示 的 真正 的 20 位 地 址 ， 然 后 与 16 位 的 PC 值 相 加 得 到 20 位 的 绝对 地 址 。 

栈 段 由 两 个 字 节 的 字 组 成 ， 这 样 栈 指 针 SP 的 值 就 恒 为 偶数 。 栈 从 高 地 址 向 低地 址 来 填 
充 。 因 此 ， 执 行 PUSH 指令 将 把 栈 指 针 减 2， 同 时 把 操作 数 存放 到 由 SS 和 SP 计算 出 来 的 内 
存 地 址 中 。 相 反 ，POP 指令 先 重新 获取 存 人 的 操作 数 ， 然 后 将 SP 的 值 加 2。 栈 段 中 比 SP 低 的 
地 址 是 未 分 配 的 自由 空间 。 栈 的 清除 只 能 通过 增加 SP 的 值 来 进行 。 实 际 上 ，DS 和 SS 的 值 是 
总 是 相同 的 ， 所 以 16 位 的 指针 能 够 用 来 访问 一 个 共享 的 数据 / 栈 段 的 变量 。 如 果 DS 和 SS 不 
同 ， 则 每 个 指针 则 需要 额外 的 第 17 位 来 区 分 这 个 指针 到 底 指向 的 是 数据 段 还 是 栈 段 。 回 顾 一 
下 前 面 的 介绍 ， 如 果 存 在 单独 的 栈 段 ， 那 么 最 可 能 的 就 是 出 现 了 错误 。 

如 果 4 个 段 寄 存 器 中 的 地 址 互相 都 相隔 很 远 ， 则 这 4 个 段 就 会 是 分 离 的 。 但 是 如 果 可 用 
的 内 存 有 限 ， 那 么 就 没有 必要 将 这 几 个 段 分 离开 来 。 因 为 编译 之 后 程序 码 的 长 度 是 可 知 的 ， 
这 样 就 可 以 从 代码 的 最 后 一 条 指令 之 后 的 第 一 个 16 倍数 的 地 址 开始 数据 段 和 栈 段 。 当 然 这 个 
假设 的 前 提 是 代码 段 和 数据 段 从 来 不 使 用 相同 的 物理 地 址 。 


C.3.2 Sut 


几乎 每 条 指令 都 需要 数据 ， 这 些 数据 或 者 来 自 内 存 或 者 来 自 寄存 器 。 为 了 指定 这 些 数 据 ， 
8088 提供 了 相当 灵活 的 寻 址 方式 。 许 多 指令 都 有 两 个 操作 数 ， 通 常 称 为 源 操作 数 和 目的 操作 
数 。 例 如 下 面 的 拷贝 指令 或 加 法 指令 : 


MOV AX,BX 
或 


ADD CX,20 


在 这 些 指 令 中 ， 第 一 个 操作 数 是 目的 操作 数 ， 第 二 个 操作 数 是 源 操作 数 ( 其 实 选 择 哪个 操作 
数 在 前 哪个 在 后 是 很 随意 的 ; 和 例子 中 相反 的 方案 在 也 经 常 被 采用 )。 显然 在 这 样 的 指令 中 目 
的 操作 数 一 定 是 一 个 左 值 ， 即 目的 操作 数 必 须 能 够 存放 结果 。 这 也 意味 着 常量 可 以 作为 源 操 
作 数 ， 但 不 能 作为 目的 操作 数 。 

在 8088 最 初 的 设计 中 ， 双 操作 数 指令 中 必须 至 少 有 一 个 操作 数 是 寄存 器 。 这 样 判断 一 
条 指令 是 字 指 令 还 是 字 节 指令 时 就 可 以 通过 检查 指令 中 寻 址 用 的 寄存 器 是 字 寄 存 器 还 是 字 节 
寄存 器 来 得 出 结论 了 。 在 8088 处 理 器 的 第 一 个 发 行 版 中 ， 这 种 思想 确实 是 强制 性 的 ， 以 至 于 
想 将 一 个 常量 人 栈 都 不 可 能 ， 因 为 人 栈 指令 的 源 操 作 数 和 目的 操作 数 都 不 是 寄存 器 。 后 续 的 
版 本 虽然 没有 最 初版 本 那么 严格 ， 但 这 种 思想 无 论 怎样 都 会 对 设计 产生 影响 。 在 某 些 指令 中 ， 
有 的 操作 数 不 用 显 式 给 出 。 例 如 在 MULB 指令 中 ， 只 给 出 目的 操作 数 AX 寄存 器 就 足够 了 。 

还 有 一 定数 量 的 单 操作 数 指令 ， 比 如 增 1 指令 、 移 位 指令 、 求 反 指 令 等 。 在 这 些 指 令 中 ， 
不 需要 使 用 寄存 器 ， 是 字 还 是 字 节 操作 就 不 得 不 依靠 操作 码 (例如 指令 类 型 ) 来 区 分 。 

8088 支持 4 种 基本 的 数据 类 型 : 1 个 字 节 的 字 节 类 型 byte、2 个 字 节 的 字 类 型 word、4 
个 字 节 的 长 整数 类 型 long 和 二 进 制 编码 的 十 进 制 数 (BCD), BCD 中 两 个 十 进 制 的 数字 被 压 
缩 到 一 个 字 中 。 最 后 一 种 类 型 解释 程序 不 支持 。 

内 存 地址 总 是 指向 一 个 字 节 的 ， 单 对 于 字 和 长 整数 类 型 ， 所 占用 的 内 存 位 置 还 要 包括 紧 
挨 着 被 此 内 存 地 址 所 指 字 节 上 方 的 1 个 或 者 3 个 字 节 。 例如 内 存 地 址 为 20 的 字 就 要 占用 20 
和 21 两 个 位 置 ， 而 内 存 地 址 为 24 的 长 整数 则 要 占用 24、25、26 和 27 这 4 个 位 置 。8088 处 
理 器 是 小 端 派 ， 也 就 是 字 的 低位 字 节 存放 在 低地 址 。 在 栈 段 中 ， 字 都 是 存放 在 偶 地 址 的 。 对 
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这 个 处 理 器 的 寄存 器 来 说 , AX DX 的 组 合 是 处 理 器 寄存 器 中 存放 长 整数 的 唯一 一 种 组 合 方式 ， 
其 中 AX 用 于 存放 低位 字 。 

图 C-3 中 的 表 给 出 了 8088 处 理 器 寻 址 模式 的 概况 ， 下 面 我 们 简单 分 析 一 下 。 表 中 最 上 面 
一 部 分 列 出 了 处 理 器 使 用 的 寄存 器 ， 几 乎 所 有 的 指令 都 要 用 这 些 寄存 器 作为 操作 数 ， 这 些 寄 
存 器 既 可 以 用 作 源 操作 数 ， 也 可 以 用 作 目 的 操作 数 。 总 共有 8 个 字 寄 存 器 和 8 个 字 节 寄存 器 。 


AH, AL, BH, BL, CH, CL, DH, DL 
AX, BX, CX, DX, SP, BP. SI. DI 


地 址 在 操作 码 之 后 (#) 
地 址 在 寄存 器 中 (S1), (DI), (BX) 


( BX) (SI), (BX) (DI) 
# (BX) (SI), # (BX) (DI) 


地 址 为 BP+ 偏 移 量 
地 址 为 BP+SIDI ( BP) (SI), (BP) (DI) 
BP+SI/DI+ 偏 移 量 # (BP)(SI). # (BP) (DI) 


PUSH, POP, PUSHF、 POPF 
LAHF, STC, CLC, CMC 
XLAT 

MOVS、 CMPS, SCAS 

IN #, OUT # 

CBW, CWD 


图 C-3 ”操作 数 寻 址 方式 。 符 号 “#” 表 示 数 值 或 者 标号 


图 C-3 中 第 二 部 分 数据 段 寻 址 给 出 了 应 用 于 数据 段 的 寻 址 方式 。 这 种 类 型 的 寻 址 方式 中 
总 是 使 用 一 对 圆 括号 ， 其 作用 是 用 来 表示 操作 数 是 相应 地 址 的 内 容 而 不 是 值 。 最 种 类 型 中 最 
简单 的 寻 址 方式 是 直接 寻 址 〈direct addressing )， 这 种 寻 址 方式 中 操作 数 的 数据 地 址 在 指令 中 
直接 给 出 。 例 如 : 


ADD CX,(20) 


在 这 条 指令 中 将 位 于 地 址 20 和 21 中 的 内 存 字 的 内 容 加 到 CX 中 。 在 汇编 语言 中 ， 为 了 汇编 
过 程 的 方便 ， 内 存 位 置 经 常 使 用 标号 来 表示 ， 而 不 直接 使 用 数值 。 即 使 在 CALL 和 JMP 指令 
中 ， 目 的 操作 数 也 被 存放 在 有 标号 表示 的 内 存 位 置 中 。 在 我 们 使 用 的 汇编 程序 中 ， 标 号 两 侧 
的 圆 括号 也 是 必需 的 ， 因 为 


ADD CX,20 
也 是 一 条 合法 的 指令 ， 而 这 条 指令 的 含义 是 将 20 这 个 常量 加 到 CX 中 ， 并 不 是 要 将 内 存 地 址 


20 处 的 字 内 容 加 到 CX 中 。 在 图 C-3 中 ,符号 “#” 用 来 表示 一 个 数值 常量 、 标 号 或 者 是 包 
含有 标号 的 常量 表达 式 。 
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在 寄存 器 间接 寻 址 (register indirect addressing ) 方式 中 ， 操 作 数 的 地 址 是 存放 在 BX, SI 
或 者 DI 这 几 个 寄存 器 的 某 一 个 之 中 的 。 在 上 面 这 三 种 情况 下 ， 操 作 数 都 是 位 于 数据 段 的 。 也 
可 以 在 寄存 器 之 前 放置 一 个 常量 ， 这 种 情况 下 就 需要 将 常量 和 寄存 器 相 加 来 得 到 操作 数 地 址 。 
这 种 寻 址 方式 称 为 寄存 器 相对 寻 址 (register displacement )， 主 要 是 为 了 数组 处 理 方 便 。 举 个 
例子 ， 如 果 SI 的 值 为 35， 那么 下 面 的 指令 就 是 将 在 标号 FORMAT 处 的 字符 串 中 的 第 5 个 字 
符 加 载 到 AL 中 。 

MOVB AL,FORMAT(S)). 

整个 字符 串 的 扫描 可 以 通过 每 步 将 寄存 器 的 值 增加 1 或 者 减少 1 来 实现 。 如 果 使 用 的 操 
作 数 是 字 ， 那 么 寄存 器 的 值 每 次 就 增加 或 者 减少 2。 

实际 使 用 中 可 以 将 数组 的 基 址 ( 例如， 最 低 数字 地 址 ) 放 到 BX 寄存 器 中 ， 然 后 将 DI 和 
SI 寄存 器 用 于 计数 。 这 种 方式 称 为 寄存 器 变 址 寻 址 (register with index addressing )。 例 如 : 


PUSH (BX)(DI) 


这 条 指令 将 BX 和 DI 寄存 器 的 值 相 加 之 后 得 到 操作 数 的 地 址 ， 通 过 这 个 地 址 将 数据 段 中 相应 
位 置 的 数据 取出 来 然后 人 栈 。 前 面 介绍 的 最 后 两 种 寻 址 地 址 结合 在 一 起 就 构成 了 寄存 器 变 址 
相对 寻 址 (register with index and displacement addressing )， 例 如 : 


NOT 20(BX)(DI) 


这 条 指令 将 位 于 地 址 BX+DI+20 和 BX+DI+21 处 的 内 存 字 进 行 求 反 操作 。 

所 有 数据 段 中 的 间接 寻 址 方式 也 同样 适用 于 栈 段 ， 只 不 过 在 栈 段 中 ， 基 址 指针 BP 替代 
了 基 址 寄存 器 BX。 这 样 (BP) 就 成 为 唯一 的 寄存 器 间接 栈 寻 址 方式 ， 但 是 这 种 寻 址 方式 也 
存在 很 多 变化 的 形式 ， 例 如 基 址 变 址 相对 寻 址 方式 -1 (BP) (SI )。 这 些 寻 址 方式 对 于 局 部 变 
量 和 函数 参数 的 寻 址 还 是 很 有 价值 的 ， 这 些 局 部 变量 和 函数 参数 都 存储 在 子 过 程 的 栈 地 址 中 。 
具体 的 存储 安排 我 们 将 在 C.4.5 节 中 进一步 说 明 。 

到 目前 为 止 通过 我 们 讨论 的 寻 址 方式 得 到 的 操作 数 地 址 既 可 以 用 于 源 操作 数 也 可 以 用 于 
目的 操作 数 。 我 们 也 可 以 称 这 些 地 址 为 有 效 地 址 (effective addresse )。 表 C-3 PRI FN PIR 
所 列 的 寻 址 方式 不 能 用 于 目的 操作 数 ， 也 不 能 作为 有 效 地 址 。 它 们 只 能 应 用 于 源 操作 数 。 

如 果 在 一 条 指令 中 操作 数 地 址 就 是 其 自身 的 一 个 常量 字 节 或 者 字 值 的 话 ， 那 么 这 种 寻 址 
方式 就 称 为 立即 数 寻 址 (immediate addressing )。 例 如 : 


CMP AX,50 


这 条 指令 比较 AX 和 常量 50， 并 根据 比较 结果 设置 相应 的 标志 寄存 器 相应 位 的 值 。 
最 后 ， 在 一 些 指令 中 还 使 用 隐 式 寻 址 (implied addressing )。 对 于 这 些 指令 ， 操 作 数 隐 舍 
在 指令 本 身 。 例 如 : 


PUSH AX 


将 AX 入 栈 ， 操 作 的 过 程 是 先 减 少 SP 的 值 ， 然 后 将 AX 拷贝 到 当前 SP 所 指向 的 位 置 。 然 而 ， 
在 这 条 指令 中 SP 并 没有 在 指令 中 明确 给 出 ,事实 上 是 PUSH 指令 隐 含 了 要 使 用 SP。 类 似 地 ， 
标志 维护 指令 也 是 隐 式 地 使 用 状态 标志 寄存 器 ， 虽 然 实 际 上 并 没有 在 指令 中 进行 命名 。 其 他 
的 几 种 指令 也 有 隐 式 操作 数 。 

8088 处 理 器 有 专门 的 指令 用 来 进行 移动 (MOVS )、 比 较 (CMPS) 和 扫描 (SCAS) £ 
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符 串 。 在 这 些 字 符 串 指令 中 ， 变 址 寄存 器 SI 和 DI 在 操作 之 后 会 自动 进行 改变 。 这 种 行为 
称 为 自 增 或 者 自 减 模式 。SI 和 DI 到底 是 增加 还 是 减少 取决 于 状态 标志 寄存 器 中 的 方向 标志 
(direction fiag )。 如 果 方 向 标志 的 值 是 0 那么 就 增 ， 如 果 是 1 那么 就 减 。 增 减 的 数量 是 1 还 是 
2 要 依据 指令 是 字 节 指令 还 是 字 指 令 。 同 样 ， 栈 指针 也 是 自 增 和 自 减 的 : 在 PUSH 指令 开始 
的 时 候 减 2， 在 POP 指令 结束 的 时 候 增 2。 


C.4 8088 指令 集 


台 计算 机 的 核心 就 是 它 能 够 执行 的 指令 集 。 要 想 真 正 理解 一 台 计 算 机 ， 就 必须 要 很 好 
地 理解 它 的 指令 集 。 在 下 面 几 个 小 节 中 ,我 们 将 讨论 8088 最 重要 的 一 些 指令 。 有 些 指令 我 们 
在 图 C-4 中 给 出 ， 并 将 它们 分 为 10 组 。 


C.4.1 移动、 拷贝 和 算术 运算 


第 一 组 指令 是 拷贝 和 移动 指令 。 到 目前 为 止 ， 最 常用 的 指令 是 MOV 指令 ， 指 令 中 要 显 
式 给 出 源 操作 数 和 目的 操作 数 。 如 果 源 操作 数 是 寄存 器 ,那么 目的 操作 数 可 以 是 一 个 有 效 地 
址 。 在 这 张 表 中 ， 寄 存 器 操作 数 用 来 表示 ， 有 效 地 址 用 e 来 表示 ， 所 以 这 样 的 操作 数组 合 
可 以 用 e<-r 来 表示 ， 这 也 是 图 C-4 中 MOV 指令 操作 数列 中 的 第 一 项 。 在 这 条 指令 的 语法 
中 ， 目 的 操作 数 在 前 ， 源 操作 数 在 后 ， 箭 头 二 用 来 指明 操作 对 象 。 这 样 ，e 一 ” 的 含义 就 是 将 
一 个 寄存 器 的 内 容 拷 贝 到 有 效 地 址 中 。 

对 于 MOYV 指令 来 说 ， 源 操作 数 也 可 以 是 一 个 有 效 地 址 ， 目 的 操作 数 是 一 个 寄存 器 ， 这 
种 组 合用 > 二 ee 来 表示 ， 也 就 是 表 操 作 数列 的 第 二 项 。 第 三 种 可 能 的 方式 是 立即 数 作为 源 操 
作 数 ， 有 效 地 址 作为 目的 操作 数 ， 用 e * 一 # 来 表示 。 表 中 用 符号 “# ”来 表示 立即 数 。 由 于 
存在 字 移 动 指 令 MOV 和 字 节 移动 指令 MOVB， 所 以 图 中 我 们 将 指令 助 记 符 后 面 用 一 对 圆 括 
号 将 B 括 起 来 表示 这 种 情况 。 因 此 ， 图 C-4 中 的 这 一 行 实际 上 代表 了 6 种 不 同 的 指令 。 

因为 移动 指令 不 对 条 件 码 寄存 器 的 任何 标志 位 产生 影响 ， 所 以 图 中 最 后 4 列 都 用 “一 ” 
来 标记 。 需 要 注意 的 是 实际 上 移动 指令 并 不 真正 移动 数据 ， 而 是 拷贝 数据 ， 源 操作 数 的 内 容 
并 不 被 修改 ， 而 真正 的 移动 是 要 修改 源 操 作 数 的 。 

图 C-4 中 的 第 二 条 指令 是 XCHG， 这 条 指令 的 功能 是 将 寄存 器 的 内 容 和 有 效 地 址 的 内 容 
相交 换 。 在 图 中 使 用 符号 二 表示 交换 。 交 换 指令 也 存在 两 个 版 本 ， 一 个 是 字 节 交换 ， 一 个 是 
字 交 换 。 在 这 种 情况 下 ， 表 中 用 XCHG 表示 相应 的 指令 ， 操 作 数 字段 则 用 + >e 表示 。 下 一 
条 指令 是 LEA，LEA 是 Load Effective Address 的 缩写 ， 意 思 是 加 载 有 效 地 址 。 它 的 功能 是 计 
算 有 效 地 址 的 数值 并 将 结果 存 人 寄存 器 中 。 

再 往 下 是 PUSH 指令 ， 即 将 其 操作 数 压 人 栈 。 显 式 的 操作 数 可 以 是 一 个 常量 ( 操作 数列 
中 用 # 表 示 ) 或 者 是 一 个 有 效 地 址 (操作 数列 中 用 e 表示 )。 此 指令 还 有 一 个 隐 式 操作 数 SP， 
这 个 操作 数 在 指令 语法 中 并 不 出 现 。 这 条 指令 执行 时 ， 先 将 SP 的 值 减 2， 然后 将 操作 数 存储 
到 当前 SP 所 指向 的 位 置 。 

接着 就 是 POP 指令 了 ， 它 的 作用 是 从 栈 移 除 一 个 操作 数 到 有 效 地 址 处 。 再 往 下 的 两 条 指 
令 是 PUSHF 和 POPF 指令 ， 它 们 也 都 有 隐 式 操作 数 ， 作 用 分 别 是 将 标志 位 寄存 器 压 人 栈 和 弹 
出 栈 。 指 令 XLAT 也 是 这 种 情况 ， 没 有 显 式 的 操作 数 。XLAT 指令 的 作用 将 AL+BX 地 址 处 计 
算 所 得 的 内 容 加 载 到 AL 字 节 寄存 器 中 。 有 了 这 条 指令 就 可 以 方便 地 在 256 个 字 节 的 表 中 进 
行 快 速 查找 。 
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加 载 有 效 地 址 
AFR 

出 栈 
标志 位 人 栈 
标志 位 出 栈 





带 进位 字 加 法 
字 减 法 
带 借 位 字 减 法 


字 节 一 字符 号 位 扩展 
字 一 双 精 度数 符号 位 扩展 





i BG 
EC 
BOL 


设置 方向 标志 : 
设置 方向 标志 : 
设置 进位 标志 
清除 进位 标志 








系统 调用 陷阱 
图 C-4 8088 最 重要 的 一 些 指令 
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8088 正式 定义 的 指令 还 有 IN 和 OUT， 但 这 两 条 指令 在 本 附录 介绍 的 解释 程序 中 并 没有 
实现 (在 图 C-4 中 也 没有 列 出 来 )。 实 际 上 ， 这 两 条 指令 和 移动 指令 的 功能 差不多 ，IN 指令 
从 输入 /输出 设备 接收 数据 ，OUT 指令 则 向 输入 /输出 设备 发 送 数据 。IN 和 OUT 指令 使 用 的 
隐 式 地 址 总 是 AX 寄存 器 ， 指 令 的 第 二 个 操作 数 是 相应 设备 寄存 器 的 端口 号 。 

图 C-4 的 第 二 部 分 是 加 法 和 减法 指令 。 这 些 指令 都 有 着 和 MOY 指令 相同 的 三 种 操作 数 
组 合 方式 : 有 效 地 址 到 寄存 器 、 寄 存 器 到 有 效 地 址 ， 以 及 常量 到 有 效 地 址 。 因 此 ， 表 中 操作 
数列 对 应 的 是 > 二 ee 二 rr， 以 及 et 一 # 。 在 所 有 的 这 4 条 指令 中 ， 溢 出 标志 O、 符 号 标志 S 
零 标志 Z 和 进位 标志 C 都 要 根据 指令 的 结果 进行 设置 。 例 如 ， 运 算 结果 超出 机 器 的 字 长 所 能 
表示 的 范围 ， 那 么 溢出 标志 O 就 要 置 1， 如 果 没 有 溢出 那么 O 就 清 0。 如 果 用 最 大 的 16 位 二 
进 制 数 0x7fff ( 十进制 数 32 767 ) 和 它 本 身 相 加 ， 那 么 结果 就 不 能 用 一 个 16 位 的 带 符号 二 进 
制 数 来 表示 ， 这 个 时 候 就 要 将 O 标志 位 置 1， 用 来 指明 这 个 错误 。 这 些 操作 中 的 其 他 状态 标 
志 位 也 要 进行 类 似 的 处 理 。 如 果 指 令 影 响 状态 标志 位 ， 那 么 就 在 表 中 的 对 应 列 上 用 星 号 (* ) 
表示 。 在 指令 ADC 和 SBB 中 ， 操 作 开 始 的 时 候 进 位 标志 用 作 额 外 的 1 (或 者 0 )， 它 们 可 以 
看 作 是 前 一 次 操作 的 进位 或 者 借 位 。 这 个 技巧 对 于 使 用 多 个 机 器 字 来 表示 32 位 或 者 更 长 的 整 
数 特 别 有 用 。 对 于 所 有 的 加 法 和 减法 指令 ， 既 有 针对 字 的 指令 也 有 针对 字 节 的 指令 。 

图 C-4 中 再 往 下 的 一 部 分 是 乘法 指令 和 除法 指令 。 操 作 数 是 带 符号 整数 就 使 用 IMUL 和 
IDIV 指令 ， 无 符号 整数 就 使 用 MUL 和 DIV 指令 。 寄 存 器 组 合 AHAL 在 字 节 乘除 法 指令 中 
用 来 作为 目的 操作 数 ， 在 字 乘 除法 指令 中 则 用 寄存 器 组 合 DX:AX 来 实现 。 即 使 乘法 运算 的 结 
果 仅 是 一 个 字 或 者 字 节 ，DX 或 者 AH 寄存 器 在 操作 中 也 要 被 重新 改写 。 因 为 目的 操作 数 有 足 
够 的 位 数 ， 所 以 乘法 总 是 可 以 进行 的 。 如 果 乘 积 不 能 用 一 个 字 或 者 一 个 字 节 来 表示 ， 那么 就 
要 将 溢出 位 和 进位 位 置 1。 乘 法 操作 的 零 和 负数 标志 位 没有 定义 。 

除法 也 使 用 和 乘法 一 样 的 寄存 器 组 合 , 用 DX : AX BK AH: AL 作为 目的 操作 数 。 商 放 到 
AX 或 者 AL 中 ， 余 数 放 到 DX 或 者 AH 中 。 全 部 的 4 个 标志 位 ， 进 位 、 滋 出、 零 和 负数 对 于 
除法 而 言 都 没有 定义 。 如 果 除 数 为 0， 或 者 商 放 不 到 寄存 器 中 ,那么 除法 操作 将 产生 一 个 陷 
阱 ， 此 时 程序 的 执行 停止 直到 陷阱 处 理 程序 就 绪 。 此 外 ， 除 法 之 后 用 软件 的 方法 处 理 负 号 还 
是 比较 明智 的 选择 ， 因 为 8088 定义 的 余数 的 符号 和 被 除数 的 符号 一 致 。 然 而 在 数学 中 ， 余 数 
总 是 非 负 的 。 

BCD 处 理 指令 ， 例 如 AAA (加 法 的 ASCH 码 调整 ) 和 DAA (加 法 的 十 进 制 调整 ) 等 指 
令 解 释 程序 没有 实现 ， 在 图 C-4 中 也 没有 给 出 。 


C.4.2 逻辑、 位 和 移 位 操作 


下 一 部 分 的 指令 包括 符号 位 扩展 、 求 反 、 逻 辑 补 、 增 1 和 减 1 等 。 符 号 位 扩展 操作 没有 
显 式 的 操作 数 ， 它 实际 上 操作 的 是 寄存 器 组 合 DX: AX BRA AH: AL 中 的 数 。 这 组 指令 中 其 
他 操作 的 单个 操作 数 可 以 是 任意 的 一 个 有 效 地 址 。 在 NEG, INC 和 DEC 指令 中 ,标志 位 都 
会 按照 预期 的 方式 受到 影响 , 但 INC 和 DEC 指令 不 影响 进位 位 ， 这 是 比较 出 乎 意料 的 ， 以 
至 于 有 些 人 认为 这 是 一 个 设计 上 的 错误 。 

接 下 来 是 一 组 两 个 操作 数 的 逻辑 操作 指令 ， 这 组 指令 的 行为 都 和 预期 相 一 致 。 在 移 位 和 
循环 移 位 这 组 指令 时 ， 所 有 的 指令 都 把 有 效 地 址 作为 它们 的 目的 操作 数 ， 而 源 操作 数 可 以 是 
字 节 寄存 器 CL， 也 可 以 是 数 1。 移 位 指令 会 影响 全 部 的 4 个 标志 位 ; 循环 移 位 只 影响 进位 位 
和 溢出 位 。 无 论 是 移 位 还 是 循环 移 位 ， 进 位 位 总 是 接收 移出 的 最 高 位 或 者 最 低位 ， 具 体 是 哪 
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一 位 要 取决 于 移 位 的 方向 。 在 RCR、RCL、RCRB 和 RCRL 这 些 带 进位 位 的 循环 移 位 指令 中 ， 
进位 位 和 有 效 地 址 中 的 操作 数 一 起 构成 一 个 17 位 或 者 9 位 的 循环 移 位 寄存 器 组 合 ， 这 样 有 利 
于 多 字 移 位 和 循环 移 位 。 

再 往 下 一 组 指令 是 用 来 操作 标志 位 的 。 这 样 做 的 主要 原因 是 为 条 件 跳 转 做 准备 。 双 箭头 
“>” 用 来 表示 比较 和 测试 操作 中 的 两 个 操作 数 ， 它 们 在 操作 的 过 程 中 并 不 改变 。 在 TEST 操 
作 中 ， 操 作 数 之 间 实 际 上 进行 的 是 逻辑 与 操作 ， 并 根据 结果 置 位 或 者 清除 零 标 志 位 和 符号 位 。 
这 种 逻辑 与 操作 结果 的 值 并 不 保存 ， 相 关 的 操作 数 也 不 做 任何 修改 。 在 CMP 指令 中 ， 要 计算 
操作 数 的 差 ， 并 根据 比较 结果 置 位 或 者 清除 全 部 4 个 标志 位 。 方 向 标志 位 用 来 给 出 在 字符 串 - 
指令 中 SI 和 DI 寄 存 器 的 值 是 增加 还 是 减少 ， 这 个 标志 位 可 以 分 别 通过 STD 和 CLD 指令 来 
置 位 或 者 清除 。 

8088 还 有 一 个 奇偶 标志 位 (parity flag) 和 一 个 辅助 进位 标志 位 ( auxiliary carry flag )。 奇 
偶 标 志 位 给 出 结果 的 奇偶 性 ( 奇数 还 是 偶数 )。 辅 助 进位 标志 用 来 检查 目的 操作 数 低 4 位 是 否 
产生 了 溢出 。 还 有 两 条 LAHEF 和 SAHF 指令 ， 它 们 的 作用 是 拷贝 标志 位 寄存 器 的 低位 字 节 到 
AH 以 及 反 向 的 操作 中 。 这 些 指令 和 标志 位 主要 是 为 了 能 够 向 后 兼容 8080 和 8085 处 理 器 。 


C.4.3 ”循环 操作 和 重复 串 操 作 


接 下 来 要 介绍 的 是 用 于 循环 的 指令 。LOOP 指令 减少 CX 寄存 器 的 值 ， 如 果 结 果 大 于 0 
那么 就 跳 转 回 标号 指示 的 地 方 。 指 令 LOOP, LOOPE, LOOPNZ 和 LOOPNE 还 要 测试 零 标 
志 位 ， 从 而 判断 是 否 在 CX 变 为 0 之 前 结束 循环 。 

所 有 的 循环 指令 的 目的 地 址 都 不 能 超过 距离 当前 程序 计数 器 的 位 置 128 个 字 节 ， 因 为 指 
令 使 用 的 是 一 个 8 位 的 带 符 号 的 偏 移 量 。 跳 转 能 够 跨越 的 指令 数量 并 不 能 像 字 节 一 样 明确 计 
算出 来 ， 因 为 不 同 指令 的 长 度 是 不 同 的。 通常 ， 指 令 的 第 一 个 字 节 定义 了 指令 的 类 型 有些 
指令 在 代码 段 中 就 只 占 一 个 字 节 。 一 般 来 说 指令 的 第 二 个 字 节 用 来 定义 寄存 器 和 指令 的 寄存 
器 模式 ， 如 果 指 令 包 含 偏 移 量 或 者 立即 数 ， 那 么 指令 长 度 将 增加 4 ~ 6 个 字 节 。 典 型 的 平均 
指令 长 度 大 约 是 2.5 个 字 节 ， 所 以 LOOP 指令 跳 转 的 范围 一 般 不 超过 50 条 指令 。 

还 有 一 些 特殊 的 串 指令 循环 机 制 ， 它 们 是 REP、REPZ 和 REPNZ 等 。 类 似 地 ,图 C-4 中 
下 一 部 分 的 5 条 字符 串 指 令 都 有 隐 式 地 址 ， 而 且 使 用 的 变 址 寄存 器 也 都 采用 自 增 或 者 自 减 模 
式 。 这 几 条 指令 中 ，SI 寄存器 指向 数据 段 ( data segment ), {A DI 寄存 器 指向 附加 段 (extra 
segment ), ES 寄存 器 是 其 基 址 。 和 REP 指令 相配 合 ，MOVSB 指令 能 够 在 一 条 指令 中 移动 一 
个 完整 的 串 。 串 长 度 存放 在 CX 寄存 器 中 。 由 于 MOVSB 指令 不 影响 标志 位 ， 所 以 没有 办 法 通 
过 REPNZ 的 拷贝 操作 检查 一 个 ASCII 零 字 节 ， 但 是 这 个 问题 可 通过 其 他 方法 来 解决 ， 可 以 先 
用 REPNZ SCASB 得 到 一 个 有 意义 的 值 保存 到 CX 中 ， 然 后 再 执行 REPMOVSB。 这 一 点 我 们 将 
在 C.8 节 字 符 串 拷贝 的 例子 中 再 详细 说 明 。 对 于 这 些 指令 ， 要 对 段 寄 存 器 ES 给 予 格外 的 注意 ， 
除非 ES 和 DS 具有 相同 的 值 。 在 解释 程序 中 使 用 的 是 小 内 存 模 型 ， 所 以 ES=DS=SS。 


C.4.4 跳 转 和 调用 指令 


图 C-4 中 最 后 一 部 分 指令 是 条 件 跳 转 和 无 条 件 跳 转 指令 、 子 程序 调用 和 返回 指令 。 其 中 
最 简单 的 要 数 JMP 指令 了 ， 这 条 指令 将 标号 作为 目的 地 址 或 者 将 有 效 地 址 的 内 容 作为 目的 地 
址 。 近 跳 转 ( near jump ) 和 远 跳 转 (far jump) 是 有 区 别 的 。 在 近 跳 转 中 ， 目 的 地 址 就 在 当前 
的 代码 段 中 ， 整 个 操作 过 程 中 代码 段 不 会 发 生变 化 。 在 远 跳 转 中 ，CS 寄存 器 在 跳 转 指令 执行 
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期 间 会 改变 。 如 果 指 令 直 接 使 用 标号 作为 目的 地 址 ， 那 么 代码 段 寄 存 器 的 新 值 就 由 标号 之 后 
的 调用 提供 ; 如 果 指 令 的 目标 地 址 是 一 个 有 效 地 址 ， 就 从 内 存 中 取得 一 个 长 整数 ， 此 长 整数 
的 低位 字 对 应 于 目的 标号 ， 高 位 字 就 是 新 的 代码 段 寄存 器 的 值 。 

当然 ， 有 这 样 的 区 别 存 在 是 不 足 为 奇 的 。 为 了 能 够 跳 转 到 20 位 地 址 空间 的 任何 一 个 地 
址 ， 必 须 在 16 位 之 外 再 提供 一 些 信息 才 行 。 这 种 方法 所 做 的 就 是 为 了 给 出 CS 和 PC 的 新 值 。 

条 件 跳 转 

8088 有 15 种 条 件 跳 转 ， 其 中 有 几 个 有 两 个 名 字 ( 例如 ， 大 于 等 于 跳 转 指 令 和 不 小 于 跳 
转 指 令 是 一 样 的 )。 这 些 跳 转 指令 列 在 图 C-5 中 。 所 列 指 令 从 指令 当前 位 置 最 多 的 跳 转 距离 不 
能 超过 128 NG a 如 果 目标 地 址 不 在 这 个 
范围 之 内 ， 那 么 就 不 得 不 采用 一 种 跳 转 跨越 

k ; x HE below | CFO | 

跳 转 的 结构 。 在 这 种 结构 中 ， 采 用 相反 条 件 
的 跳 转 跨越 下 一 条 指令 。 如 果 下 一 条 指令 是 


于 
一 条 无 条 件 的 能 够 转移 到 目的 地 址 的 远 跳 转 


E 

1S ay 

ETSE er h SOR acin 
滋 
4 
A 
| 


BD OE a 
符号 位 为 负 
GET f: a | 
Bolbw aie sacs ER aa iria na aa 
[Above | CF=0 或 者 ZF=0 | 


SES, 那么 这 样 两 条 指令 的 效果 正 是 我 们 所 a 
EO, 不 等 于 | ZF=0 


期 望 的 远 范围 跳 转 。 举 个 例子 ,为 了 替换 


JB FARLABEL 
中 Eo 2 TH 
指令 ,我们 使 用 
SF # OF 或 者 ZF=1 


PERM, 

. 非 负 ee eee 
换 而 言 之 ， 如 果 不 可 能 直接 实现 JUMP BELOW 图 C-5 条 件 跳 转 指令 
跳 转 ,那么 可 以 使 用 JUMP NOT ABOVE 跳 转 到 一 个 近 距离 的 标号 1， 后 面 再 紧 跟 一 条 跳 转 到 
FARLABEL 的 无 条 件 跳 转 指令 。 虽 然 这 样 做 浪费 一 点 时 间 和 空间 ， 但 是 效果 是 相同 的 。 当 程 
序 中 可 预期 的 目的 地 址 太 远 的 时 候 ， 汇 编 器 能 够 自动 采用 这 种 跨越 式 的 跳 转 结构 。 能 够 正确 
进行 这 样 的 计算 是 相当 复杂 的 。 假 设 跳 转 距离 接近 边界 ， 但 是 一 些 插 在 中 间 的 指令 也 是 条 件 
跳 转 指令 。 这 种 情况 下 如 果 内 部 的 跳 转 指令 没有 处 理 ， 那 么 外 部 的 跳 转 也 是 无 法 解决 的 。 为 
了 安全 起 见 ， 汇 编 器 会 给 出 错误 警告 。 有 的 时 候 也 不 是 必须 要 采用 这 种 跨越 跳 转 方式 。 当 汇 
编 器 绝对 确信 目标 地 址 在 合法 范围 之 内 的 时 候 ， 它 只 是 生成 直接 条 件 跳 转 指 令 。 

大 部 分 条 件 跳 转 指 令 依 赖 状 态 标 志 位 ， 而 且 前 面 通 常 都 是 测试 或 者 比较 指令 。CMP 指令 
将 源 操作 数 和 目的 操作 数 做 减法 ， 设 置 条 件 码 但 并 不 保存 减法 结果 。 两 个 操作 数 都 没有 任何 
变化 。 如 果 结 果 是 0 或 者 是 负数 ， 就 要 进行 相应 标志 位 的 置 位 操作 。 如 果 结 果 超 出 了 二 进 制 
位 的 表示 范围 ， 那 么 溢出 位 就 要 置 位 。 如 果 最 高 位 有 进位 ， 那 么 进位 位 就 进行 置 位 。 条 件 跳 
转 指令 能 够 测试 所 有 的 这 些 标 志 位 。 

如 果 操 作 数 是 带 符号 数 ， 那 么 就 使 用 带 GREATER THAN fil LESS THAN 的 指令 ; 如果 
操作 数 是 无 符号 数 ， 那 么 就 使 用 带 ABOVE 和 BELOW 的 指令 。 


C4.5 子 程 序 调用 


8088 中 有 一 条 指令 用 于 调用 过 程 ， 一 般 在 汇编 语言 中 这 些 过 程 也 称 为 子 程序 ( subroutine )。 
和 跳 转 指 令 一 样 ， 也 存在 近 调用 〈anear call) 指令 和 远 调 用 (far call) 指令 。 在 本 附录 介绍 的 
解释 程序 中 只 实现 了 近 调 用 。 指 令 的 目的 操作 数 或 者 是 一 个 标号 或 者 是 一 个 有 效 地 址 的 内 容 。 
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如 图 C-6 所 示 ， 子 程序 要 用 到 的 参数 必须 先 按照 道 序 压 人 栈 。 在 汇编 语言 中 ， 参 数 通常 称 为 
变 元 (argument )， 这 两 个 词 经常 可 以 互 换 使 用 。 人 参数 压 人 栈 之 后 将 执行 CALL 指令 。 指 令 开 
始 的 时 候 将 程序 计数 器 压 人 栈 ， 这 样 可 以 保存 返回 地 址 。 返 gpg] 
回 地 址 是 子 程序 调用 结束 返回 时 ， 主 程序 能 够 继续 执行 的 后  BP+6 


续 指令 的 地 址 。 BP+4 
接 下 来 新 的 程序 计数 器 的 值 可 以 从 标号 或 者 有 效 地 址 中 BPH 


加 载 。 如 果 是 远 调 用 ， 那 么 CS 寄存 器 会 在 PC 之 前 被 压 人 器， 


栈 ， 这 样 程序 计数 器 和 代码 段 寄存 器 都 要 从 立即 数 或 者 有 效 。 Bp-4 





地 址 中 重新 加 载 。 这 样 一 条 CALL 指令 就 执行 完毕 了 。 BP-6 
返回 指令 RET 的 作用 就 是 将 返回 地 址 从 栈 中 弹出 ,并 BPS 


且 将 返回 地 址 保持 到 程序 计数 器 中 ， 这 样 程 序 就 可 以 马上 从 图 C-6， 栈 举例 

CALL 指令 的 下 一 条 指令 继续 执行 。 有 些 时 候 RET 指令 会 包含 一 个 正 数 作为 立即 数 ， 用 来 指 
明 在 调用 指令 执行 前 压 人 栈 的 参数 所 占 的 字 节 数 ; 这 个 数 被 加 到 SP 上 用 来 清除 栈 。 在 远 调用 
中 使 用 RETF 返回 ， 正 如 预计 的 那样 ， 代 码 段 寄 存 器 在 程序 计数 器 之 后 弹出 栈 。 

参数 在 子 程序 内 部 需要 被 访问 ， 因 此 子 程序 开始 的 时 候 经 常 将 基 址 指针 压 人 栈 ， 然后 
将 SP 的 当前 值 拷贝 到 BP 中 。 这 就 意味 着 基 址 指针 指向 子 程序 前 面 的 值 。 现 在 返回 地 址 位 于 
BP+2 处 ， 第 一 和 第 二 个 参数 可 以 分 别 在 BP+4 和 BP+6 的 有 效 地 址 中 找到 。 如 果 过 程 需 要 局 
部 变量 ， 那 么 需要 的 字 节 数 可 以 从 栈 指 针 中 减 去 ， 这 些 局 部 变量 可 以 通过 基 址 指针 和 负 的 偏 
移 量 来 寻 址 。 在 图 C-6 的 例子 中 ， 有 3 个 单字 局 部 变量 ， 分 别 位 于 BP-2、BP-4 和 BP-6, $% 
用 这 种 办 法 ， 通 过 BP 寄存 器 可 以 访问 当前 所 有 的 参数 和 局 部 变量 。 

栈 一 般 用 来 保存 中 间 结 果 ， 或 者 为 后 续 的 调用 准备 参数 。 不 用 计算 子 程序 使 用 了 多 少 栈 ， 
它 就 能 够 在 返回 之 前 得 到 恢复 ， 主 要 是 通过 将 基 址 指针 拷贝 到 栈 指 针 ， 从 栈 弹 出 老 的 BP 从 
而 完成 RET 指令 的 执行 。 

在 子 程序 执行 过 程 中 ， 处 理 器 的 寄存 器 的 值 有 时 会 改变 。 所 以 采用 一 些 惯例 约定 的 方式 
来 处 理 这 个 问题 是 可 行 的 方法 ， 做 到 让 调用 子 程序 的 主 程序 不 必 感 知 那些 寄存 器 被 子 程序 使 
用 了 。 最 简单 的 解决 办 法 是 系统 调用 和 一 般 的 子 程序 调用 都 采用 同样 的 惯例 约定 。 假 设 寄存 
器 AX 和 DX 在 被 调用 的 程序 中 可 能 会 改变 ， 如 果 其 中 某 个 寄存 器 包 含 重要 的 信息 ， 那 么 对 
于 执行 调用 的 程序 而 言 最 好 在 将 参数 压 人 栈 之 前 将 相关 寄存 器 的 内 容 先 压 人 栈 。 如 果子 程序 
还 要 使 用 其 他 寄存 器 ， 可 以 在 子 程序 开始 的 时 候 立 即将 这 些 寄存 器 和 人 栈 ， 并 在 RET 指令 之 前 
弹出 。 换 名 话说 ， 对 于 调用 者 来 讲 保存 AX 和 DX 寄存 器 是 一 个 好 的 习惯 ， 因 为 它们 可 能 包 
含 重 要 的 信息 ， 对 于 被 调用 者 而 言 则 是 要 保存 它 可 能 覆 写 的 其 他 寄存 器 。 


C.4.6 ”系统 调用 和 系统 子 程序 


为 了 将 打开 、 关 闭 、 读 、 写 文件 的 任务 从 汇编 语言 编程 中 分 离开 来 ， 所 以 程序 将 运行 在 
操作 系统 之 上 的 。 为 了 让 解释 程序 能 够 在 多 个 平台 上 和 运行， 解释 程序 提供 了 7 个 系统 调用 和 
5 个 功能 函数 ， 这 些 系统 调用 和 功能 函数 列 在 图 C-7 中 。 

这 12 个 例 程 可 以 通过 标准 的 调用 序列 激活 ; 首先 以 逆序 的 方式 将 必须 的 参数 压 人 栈 ， 然 
后 调用 编号 入 栈 ， 最 后 执行 没有 操作 数 的 系统 陷阱 指令 SYS。 系 统 子 程序 从 栈 中 能 够 得 到 所 
有 必需 的 信息 ， 包 括 需要 的 系统 服务 的 调用 编号 。 返 回 值 放 在 AX 寄存 器 中 或 者 放 在 DX: AX 
寄存 器 组 合 中 ( 如 果 返 回 值 是 长 整 型 数 时 )。 
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*name, 0/1/2 7 j 打开 文件 

*name, *mode 文件 描述 符 创建 文件 

fd, buf, nbytes 字 节 数 从 缓冲 区 buf 读 取 nbytes 个 字 节 
fd, buf, nbytes 字 节 数 向 缓冲 区 buf FA nbytes 个 字 节 
fd 成 功 返 回 0 关闭 文件 描述 符 为 fd 的 文件 
fd, offset(long), 0/1/2 | ME (KEW) | 移动 文件 指针 


status 关闭 文件 停止 进程 

从 标准 输入 读 人 字符 
char 向 标准 输出 写 人 字符 
*format, arg 在 标准 输出 上 进行 带 格式 打印 
buf, *format, arg 在 缓冲 区 buf 中 进行 带 格式 打印 
buf、*format、arg 从 缓冲 区 buf 读 取 参数 


图 C-7 解释 程序 中 的 一 些 UNIX 系统 调用 和 可 用 的 子 程序 


所 有 其 他 寄存 器 的 值 在 执行 SYS 指令 后 都 能 保持 原 值 ， 这 一 点 是 能 够 得 到 保证 的 。 调 用 
之 后 参数 仍然 在 栈 中 存在 ， 然 而 因为 不 再 需要 这 些 参数 ， 所 以 栈 指针 在 调用 之 后 将 由 调用 者 
做 相应 调整 。 当 然 ， 如 果 这 些 参 数 在 后 续 的 调用 中 还 要 使 用 的 话 那 将 另 当 别 论 。 

为 了 方便 起 见 ， 系 统 调用 的 名 字 可 以 在 汇编 程序 开始 的 时 候 定 义 为 常量 ， 这 样 它们 就 可 
以 通过 名 字 而 不 是 使 用 编号 来 调用 。 在 例子 中 会 讨论 几 个 系统 调用 ， 所 以 本 节 我 们 只 给 出 了 
很 少 的 一 些 必 要 的 细节 。 

在 这 些 系 统 调用 中 ， 文件 可 以 通过 OPEN 调用 打开 ， 也 可 以 通过 CREAT 调用 打开 。 在 
这 两 种 情况 下 ， 第 一 个 参数 是 包含 文件 名 的 字符 串 的 起 始 地 址 。OPEN 调用 的 第 二 个 参数 可 
以 是 0 (文件 为 读 而 打开 )、1 (文件 为 写 而 打开 ) 或 者 2 (文件 为 读 写 而 打开 )。 如 果 文 件 允 
许 进 行 写 操作 但 文件 又 不 存在 ， 那 么 调用 就 创建 一 个 文件 。 在 CREAT 调用 中 是 创建 一 个 空 
文件 ,文件 访问 权限 取决 于 调用 的 第 二 个 参数 。OPEN 和 CREAT 调用 都 返回 一 个 小 整数 ， 并 
将 返回 值 保存 在 AX 寄存 器 中 ， 这 个 返回 值 称 为 文件 描述 符 (file descriptor )， 通 过 它 能 够 读 、 
写 和 关闭 文件 。 如 果 返 回 值 是 个 负数 那么 就 意味 着 调用 失败 。 在 程序 开始 的 时 候 ， 就 已 经 打 
开 三 个 文件 ， 每 个 文件 有 各 自 的 文件 描述 符 : 0 代表 标准 输入 ，1 代表 标准 输出 ，2 代表 标准 
错误 输出 。 

READ 和 WRITE 调用 有 三 个 参数 : 文件 描述 符 ， 用 于 保存 数据 以 及 要 传送 的 字 节 数 的 
缓冲 区 。 因 为 参数 是 按照 道 序 人 栈 的 ， 所 以 我 们 先 往 栈 压 和 人 字 节 数 ， 然 后 压 人 缓冲 区 起 始 地 
址 ， 接 着 压 人 的 是 文件 描述 符 ， 最 后 出 栈 的 是 调用 编号 ( 读 或 者 写 )。 参 数 和 人 栈 的 顺序 和 标准 
C 语言 的 调用 顺序 是 一 致 的 ，C 语言 的 调用 

read(fd, buffer, bytes); 

就 是 将 参数 以 bytes、buffer 和 fd 这 样 的 顺序 人 栈 来 实现 的 。 

CLOSE 调用 的 参数 只 需要 文件 描述 符 ，AX 寄存 器 中 的 返回 值 如 果 是 0 就 表示 文件 被 成 
功 关闭 。EXIT 调用 需要 将 退出 状态 参数 人 栈 ， 但 它 没 有 返回 值 。 

LSEEK 调用 能 够 改变 一 个 已 打开 文件 的 读 / 写 指 针 (read/write pointer )。 调 用 的 第 一 个 参 
数 是 文件 描述 符 。 第 二 个 参数 是 一 个 长 整 型 数 ， 高 位 字 先 人 栈 ， 然 后 低位 字 人 栈 ， 即 使 偏 移 量 
只 用 一 个 字 就 能 表示 的 时 候 也 这 样 做 。 第 三 个 参数 用 来 指出 新 的 读 / 写 指针 如 何 计算 : 0 表示 
从 文件 起 始 位 置 计算 ,1 表示 从 当前 位 置 计算 ,2 表示 从 文件 结束 位 置 计算 。 调 用 的 返回 值 是 
相对 于 文件 起 始 处 的 指针 的 新 位 置 ， 返 回 值 是 一 个 长 整数 ， 保 存在 寄存 器 组 合 DX: AX 中 。 
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现在 我 们 来 看 几 个 非 系 统 调用 的 函数 。GETCHAR 函数 从 标准 输入 读 人 一 个 字符 并 把 它 
保存 到 AL 中 ，AH 设置 为 0。 如 果 失 败 ， 整 个 AX 寄存 器 就 设置 为 -1。PUTCHAR 函数 向 标 
准 输出 写 人 一 个 字 节 ， 如 果 成 功 写 人 就 返回 写 人 的 字 节 ， 失 败 就 返回 -1。 

调用 PRINTF 输出 格式 化 的 信息 。 此 调用 的 第 一 个 参数 是 格式 字符 串 的 地 址 ， 其 作用 是 
用 来 指出 如 何 格式 化 输出 。 字 符 串 “%d” 表 示 下 一 个 参数 是 栈 中 的 一 个 整数 ， 打 印 的 时 候 将 
转换 为 十 进 制 表示 方式 。 同 样 道理 ,“%x” 表 示 转 换 为 十 六 进 制 表 示 方 式 ,“%o” 表 示 转 换 为 
八进制 表示 方式 。 此 外 ,“%s” 表 示 下 一 个 参数 是 一 个 以 空 字 符 结尾 的 字符 串 ， 字 符 串 通过 
栈 中 的 内 存 地 址 传送 给 调用 。 栈 中 的 附加 参数 的 数目 应 该 和 格式 字符 串 中 的 变换 指示 的 数目 
相 匹 配 。 

举 个 例子 ， 下 面 的 调用 


printf(“x = %d and y = %d\n”, x, y); 


所 打印 的 字符 串 取 代 格 式 化 字符 串 中 “%d” 的 是 x 和 > 的 数值 值 。 再 次 强调 ， 为 了 和 C 语言 
兼容 ， 参 数 入 栈 的 顺序 是 先 “y” 后 “x”， 最 后 是 格式 化 串 的 地 址 。 这 样 惯例 约定 的 原因 是 
printf 的 参数 数目 是 可 变 的 ， 如 果 以 逆序 的 方式 将 参数 人 栈 ， 那 么 格式 化 字符 串 本 身 总 是 最 后 
一 个 人 栈 的 参数 ， 这 样 便于 定位 。 如 果 参 数 按照 从 左 向 右 的 顺序 人 栈 ， 那 么 格式 化 字符 串 将 
在 栈 的 底部 ，printf 过 程 就 不 知道 如 何 找到 这 个 字符 串 。 

在 PRINTF 调用 中 ， 第 一 个 参数 是 用 来 接收 输出 字符 串 的 缓冲 区 ， 而 不 是 标准 输出 。 其 
他 参数 和 PRINTF 中 的 相同 。SSCANF 调用 从 某 种 意义 上 说 和 PRINTF 是 相对 的 调用 ， 它 的 
第 一 个 参数 是 一 个 字符 串 ， 可 以 包括 十 进 制 、 八 进 制 、 十 六 进 制 表示 的 整数 ， 下 一 个 参数 是 
格式 化 字符 串 ， 给 出 转换 指示 。 其 他 参数 是 接收 已 转换 信息 的 内 存 字 地 址 。 这 些 系统 子 程序 
是 多 种 多 样 的 ， 更 多 的 介绍 超出 了 此 附录 的 范围 。 在 C.8 节 中 ， 一 些 实例 演示 了 这 些 系 统 子 
程序 在 不 同情 形 下 的 具体 使 用 方法 。 


C4.7 ”指令 集 的 最 后 说 明 


在 8088 的 官方 定义 中 ， 有 一 个 段 写 前 缀 (segment override )， 主 要 是 为 便于 使 用 其 他 段 
的 有 效 地 址 提供 可 能 性 ; 也 就 是 说 覆 写 之 后 的 第 一 个 内 存 地 址 是 使 用 显 式 的 段 寄 存 器 计算 出 
来 的 。 举 个 例子 ， 指 令 


ESEG MOV DX,(BX) 


首先 使 用 附加 段 计 算 BX 地 址 ， 然 后 将 计算 结果 拷贝 到 DX 中 。 然 而 ， 对 于 使 用 SP 寻 址 的 
栈 段 ， 以 及 使 用 DI 寄存 器 的 串 指令 的 附加 有 段 不 能 被 覆 写 。 段 寄存 器 SS. DS 和 ES 可 以 用 在 
MOV 指令 中 ,但 是 将 一 个 立即 数 转 移 到 一 个 段 寄 存 器 中 是 不 可 能 的 ， 这 些 寄存 器 也 不 能 用 在 
XCHG 操作 中 。 改 变 段 寄 存 器 的 编程 和 覆 写 是 相当 环 手 的 ， 应 该 尽 可 能 避免 。 本 附录 的 解释 
程序 使 用 固定 的 段 寄 存 器 ， 所 以 这 些 问 题 都 不 会 出 现 。 

大 多 数 计算 机 都 支持 浮 点 指令 ， 有 的 时 候 直接 在 处 理 器 中 实现 ， 有 的 时 候 在 独立 的 协 处 
理 器 中 实现 ， 此 外 ， 还 可 以 采用 一 种 特殊 的 浮 点 陷阱 通过 软件 解释 的 方式 来 实现 。 这 些 特 性 
的 讨论 超出 了 本 附录 的 范围 。 


C.5 汇编 器 


我 们 现在 已 经 讨论 完 8088 的 体系 结构 。 下 面 的 主题 是 关于 使 用 汇编 语言 对 8088 进行 纺 
程 的 软件 ， 特 别 是 我 们 提供 的 进行 学 习 汇 编 语 言 程序 设计 的 工具 。 我 们 首先 来 讨论 一 下 汇编 
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器 ， 然 后 是 跟踪 程序 ， 最 后 介绍 一 些 使 用 这 些 工具 的 实用 知识 。 
C.5.1 简介 


现在 我 们 应 该 介绍 一 下 指令 的 助 记 符 (mnemonic) 了 ， 助 记 符 是 指令 较 短 并 容易 记忆 的 
符号 名 字 ， 例 如 ADD 和 CMP 等 。 寄 存 器 也 可 以 用 符号 名 字 访 问 ,， 诸如 AX 和 BP。 使 用 指 
令 和 寄存 器 的 符号 名 字 编 写 的 程序 称 为 汇编 语言 程序 (assembly language program), 为 了 运 
行 这 样 的 程序 ， 必 须 首先 将 程序 转换 为 CPU 能 够 真正 理解 的 二 进 制 数 。 将 汇编 语言 程序 转换 
为 二 进 制 数 的 程序 就 是 汇编 器 (assembler )。 汇 编 器 的 输出 称 为 目标 文件 (object file), HFA 
程序 也 对 预先 汇编 好 并 存放 在 库 中 的 子 程序 进行 调用 。 为 了 运行 这 些 程序 ， 新 汇编 出 来 的 目 
标 文 件 和 它 使 用 的 库 子 程序 (也 可 能 是 目标 文件 ) 必须 合并 成 一 个 单一 的 可 执行 二 进 制 文件 
(executable binary file )， 这 项 工作 是 由 另外 一 个 称 为 链接 器 (linker) 的 程序 完成 的 。 只 有 当 
链接 器 将 一 个 或 者 多 个 目标 文件 建立 成 可 执行 二 进 制 文件 的 时 候 ， 整 个 翻译 过 程 才 算 全 部 完 
成 。 然 后 操作 系统 就 可 以 将 可 执行 二 进 制 文件 读 人 内 存 并 执行 它 。 

汇编 器 的 首要 任务 是 建立 符号 表 (symbol table )， 用 于 将 常量 和 标号 的 符号 名 字 直 
接 映射 到 它们 对 应 的 二 进 制 编码 。 程 序 中 直接 定义 的 常量 可 以 不 做 任何 处 理 就 放 到 符号 
表 中 。 

然而 ， 标 号 表示 的 地 址 的 值 并 不 是 显而易见 的 。 为 了 计算 它们 的 值 ， 汇 编 器 采用 称 为 第 
一 趟 扫描 (first pass) 的 方式 逐 行 扫描 汇编 程序 。 在 这 趟 扫描 过 程 中 ， 汇 编 器 要 注意 常 使 用 
符号 “.”( 发 音 : 点 ) 指示 的 位 置 计数 器 (location counter )。 对 于 在 这 趟 扫描 过程 中 找到 的 
每 一 条 指令 和 预 留 内 存 ， 位 置 计 数 器 将 进行 增 量 操作 ， 增 量 的 值 是 扫描 项 所 必需 的 内 存 大 小 。 
这 样 ， 如 何 前 两 条 指令 分 别 是 2 字 节 和 3 字 节 指令 ， 那 么 在 第 三 条 指令 处 的 标号 的 数值 值 就 
是 5。 例如 ， 如 果 代 码 段 位 于 程序 的 起 始 处 ,那么 工 的 值 就 将 是 5。 

MOV AX,6 


MOV BX,500 
Ls 


在 第 二 趟 扫描 〈second pass) 开始 的 时 候 ， 每 一 个 符号 的 数值 值 都 是 已 知 的 。 因 为 指令 
助 记 符 的 数值 值 是 常量 ， 所 以 我 们 现在 就 可 以 开始 进行 代码 生成 ( code generation )。 一 次 一 
个 ， 指 令 再 次 被 读 出 ， 其 对 应 的 二 进 制 值 被 写 人 目标 文件 。 当 最 后 一 条 指令 汇编 完毕 ， 目 标 
文件 也 就 生成 了 。 


C.5.2 基于 ACK 的 汇编 器 : as88 


本 节 将 介绍 汇编 器 /链接 器 as88 的 细节 ，as88 在 CD-ROM 光盘 和 网 站 上 已 经 提供 ， 它 
要 和 跟踪 程序 配合 使 用 。 这 个 汇编 器 是 阿姆斯特丹 编译 器 工具 包 ( Amsterdam Compiler Kit, 
ACK )， 相 比较 而 言 ， 它 更 类 似 与 UNIX 汇编 器 ， 而 不 是 MS-DOS 或 者 Windwows 汇编 器 。 
汇编 器 中 使 用 的 注释 符号 是 惊叹 号 “!”"。 一 行 之 中 惊叹 号 之 后 的 部 分 都 是 注释 ， 它 对 目标 文 
件 的 产生 没有 影响 。 同 样 ， 空 行 也 是 允许 存在 的 ， 但 总 是 被 忽略 。 

汇编 器 使 用 三 个 不 同 的 区 ， 用 于 存放 翻译 过 的 代码 和 数据 。 这 些 区 和 机 器 的 内 存 分 段 
是 有 关系 的 。 第 一 个 是 正文 区 (TEXT section )， 用 于 处 理 器 指令 。 接 着 是 数据 区 (DATA 
section )， 用 来 进行 数据 段 内 存 的 初始 化 ,这 是 在 进程 开始 的 时 候 进 行 的 。 最 后 是 以 符号 为 开 
端的 BSS 区 (Block Started by Symbol )， 用 来 在 数据 段 进行 内 存 预 留 但 并 不 初始 化 (也 就 是 
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初始 化 为 0 )。 这 些 区 都 有 各 自 的 位 置 计 数 器 。 设 置 区 的 目的 是 为 了 允许 汇编 器 先生 成 一 些 指 
令 ， 然 后 是 一 些 数据 ， 再 生成 一 些 指令 ， 然 后 又 是 数据 ， 依 此 类 推 。 最 后 链接 器 将 重新 安排 
这 些 指令 和 数据 ,以便 将 所 有 的 指令 放 到 一 起 构成 正文 段 ， 所 有 的 数据 放 到 一 起 构成 数据 段 。 
每 一 行 汇编 代码 只 为 一 个 区 产生 输出 ,但 代码 行 和 数据 行 可 以 交叉 。 在 运行 时 ， 正 文 区 存储 
在 正文 段 ， 数 据 和 BSS 区 连续 地 存储 在 数据 段 。 

汇编 语言 程序 的 一 条 指令 或 者 数据 字 可 以 由 标号 开始 。 标 号 也 可 以 自己 占据 一 行 ， 这 种 
情况 下 相当 于 标号 出 现在 下 一 条 指令 或 者 下 一 个 数据 字 的 前 面 。 例 如 : 


CMP AX,ABC 

JEL 

MOV AX,XYZ 
L: 


其 中 工 是 一 个 标号 ， 它 标记 的 是 它 之 后 的 指令 的 数据 字 。 汇 编 器 支持 两 种 不 同 的 标号 。 第 一 
种 是 全 局 标号 (global label )， 是 一 个 字母 和 数字 组 成 的 标识 符 后 面 再 跟 一 个 冒号 “:"。 全 局 
标号 必须 全 局 唯一 ， 并 且 不 能 和 任何 关键 字 或 者 指令 助 记 符 相 同 。 第 二 种 是 局 部 标号 (local 
label )， 只 能 在 正文 区 使 用 ， 每 个 局 部 标号 是 一 个 单独 的 数字 后 面 再 跟 一 个 冒号 “:”。 局 部 标 
号 可 以 多 次 出 现 。 例 如 程序 包括 下 面 一 条 指令 


JE 2f 
这 意味 着 JUMP EQUAL 向 前 到 局 部 标号 2。 类 似 地 ， 


JNE 4b 
意味 着 JUMP NOT EQUAL 向 后 到 局 部 标号 4。 

汇编 器 允许 给 常量 赋予 一 个 符号 名 字 ， 语 法 如 下 : 

标识 符 = 表达 式 
这 里 标识 符 是 一 个 字母 数字 串 ， 例 如 在 

BLOCKSIZE = 1024 
中 ， 与 这 种 汇编 语言 的 所 有 标识 符 一 样 ， 只 有 前 8 个 字符 是 有 效 的 ， 所 以 BLOCKSIZE 和 
BLOCKSIZZ 是 相同 的 符号 ， 实 际 上 都 是 BLOCKSIZ。 表 达 式 可 以 由 常量 、 数 值 值 和 操作 符 
组 成 。 标 号 可 以 看 作 是 常量 ， 因 为 在 第 一 趟 扫描 结束 的 时 候 它 们 的 数值 值 就 已 经 确定 了 。 

数值 值 可 以 是 8 进 制 (以 0 开始 )、 十 进 制 或 者 十 六 进 制 (以 OX 或 者 0x 开始 )。 十 六 进 
制 数 使 用 字母 a ~ f 或 者 A ~ F 表示 值 10 ~ 15。 整 数 操作 符 有 二 、-、*、/ 和 %， 分 别 对 应 加 法 、 
减法 、 乘 法 、 除 法 和 求 余数 运算 。 人 逻辑 操作 符 有 及、^ 和 ~， 分 别 对 应 位 与 、 位 或 和 侵 辑 补 
(NOT )。 表 达 式 可 以 使 用 方 括 号 ，[ 和 ] 要 成 对 使 用 。 圆 括号 没有 使 用 ， 这 是 为 了 避免 和 寻 址 
方式 产生 冲突 。 

表达 式 里 的 标号 应 该 采取 有 效 的 方式 来 处 理 。 指 令 标 号 不 能 与 数据 标号 相 减 。 虽 然 可 比 
较 的 标号 的 差 是 一 个 数值 值 ， 但 是 无 论 标号 还 是 它们 的 差 值 都 不 能 作为 乘法 或 者 逻辑 表达 式 
中 的 常量 。 常 量 定义 中 允许 的 表达 式 也 可 以 用 作 处 理 器 指令 中 的 常量 。 某 些 汇编 器 具有 宏 功 
能 ,通过 宏 可 以 将 若干 指令 分 为 一 组 并 进行 命名 ,但 是 as88 没有 这 种 特性 。 

在 每 一 种 汇编 语言 中 ， 都 有 一 些 自己 特殊 的 命令 ， 这 些 命令 能 够 影响 汇编 过 程 ， 但 是 它 
们 并 不 被 转换 为 二 进 制 码 。 这 些 命令 称 为 伪 指 令 (pseudoinstruction )。 图 C-8 给 出 了 as88 使 
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用 的 伪 指令 。 

伪 指 令 的 第 一 部 分 确定 了 以 下 各 行 应 该 放 到 那个 区 中 由 汇编 器 进行 处 理 。 通 常 都 使 用 一 
个 单独 的 行 来 表示 这 样 的 区 需求 ， 可 以 放 到 代码 中 的 任何 地 方 。 因 为 实现 上 的 原因 ， 使 用 的 
第 一 个 区 必须 是 TEXT 区 ， 接 着 是 DATA 区 ， 然 后 是 BSS 区 。 在 这 些 初 始 的 声明 之 后 ， 区 能 
够 以 任何 顺序 使 用 。 而 且 ， 一 个 区 的 第 一 行 应 该 是 一 个 全 局 标号 。 在 区 的 排序 方面 没有 其 他 
的 限制 。 

伪 指 令 的 第 二 部 分 是 数据 段 的 数据 类 型 指示 。 四 种 类 型 分 别 是 : .BYTE、.WORD、 
.LONG， 和 string。 在 一 个 可 选 的 标号 和 伪 指 令 关键 字 之 后 ， 同 一 行 的 剩余 部 分 前 三 种 类 型 是 
逗号 分 隔 的 常量 表达 式 列 表 。 对 于 string 来 说 有 两 个 关键 字 ， 一 个 是 ASCII， 另 一 个 是 
ASCIZ， 两 者 的 唯一 区 别 是 后 者 在 字符 串 的 最 后 加 了 一 个 字 节 0。 无 论 哪 种 关键 字 都 需要 一 个 
双 引 号 中 间 的 字符 串 。 在 字符 串 的 定义 中 允许 使 用 一 些 转 义 符号 ， 如 图 C-9 中 所 列 。 除 这 些 
之 外 ， 任 何 特殊 字符 可 以 使 用 一 个 反 斜 线 后 面 跟着 八进制 数 来 表示 ， 例 如 ，\377 (最 多 三 个 
数字 ， 这 里 不 需要 使 用 0 )。 
| 
-SECT .TEXT 
SECT .DATA 
SECT.BSS | 汇编 以 各行 到 BSS 区 | 
| 将 自 变量 汇编 成 一 系列 字 节 | 
wo | 将 自 变量 汇编 成 一 系列 字 | 
| 将 自 变量 汇编 成 一 系列 长 整数 | 
ASCII “str” | 将 str 存储 为 ASCI 字符 串 但 不 以 0 字 节 为 结尾 | 
.ASCIZ “str” 
前 移 位 置 计数 器 nn 个 位 置 
ALIGN ”| 前 移 位 置 计数 器 直到 ” 字 节 边界 | OMEN | 
EXTERN | 标识 符 是 一 个 外 部 名 字 | LY SRS 


图 C-8 as88 的 伪 指 令 图 C-9 as88 允许 使 用 的 一 些 转 义 字符 


伪 指 令 SPACE 只 是 需要 简单 地 增加 位 置 指针 的 值 ， 增 加 的 值 是 变 元 中 给 出 的 字 节 数 。 这 
个 关键 字 可 以 放 在 一 个 标号 之 后 ， 在 BSS 段 中 为 变量 预 留 内 存 的 时 候 特 别 有 用 。 为 了 便于 将 
字 、 长 整数 等 汇编 到 适当 的 内 存 位 置 ，ALIGN 关键 字 用 于 前 移 位 置 指针 到 第 一 个 2、4、 或 者 
8 字 节 内 存 边 界 。 最 后 ， 关 键 字 EXTERN 声明 提 到 的 例 程 或 者 内 存 位置 对 链接 器 而 言 是 可 用 
的 外 部 引用 。 定 义 不 需要 在 当前 文件 中 ， 可 以 在 其 他 地 方 定义 ， 链 接 器 能 够 处 理 这 样 的 引用 。 

尽管 汇编 器 本 身 是 通用 的 ， 但 是 和 跟踪 程序 配合 使 用 的 时 候 还 有 些 要 点 需要 注意 。 汇 编 
器 接受 关键 字 的 时 候 不 区 分 大 小 写 ， 但 是 跟踪 程序 总 是 以 大 写 的 方式 来 显示 。 类 似 地 ， 汇 编 器 
EZ A (E) 和 “m”( 换行 ) 作为 新 行 的 指示 ,但 是 跟踪 程序 总 是 使 用 后 者 。 此 外 ， 尽 
管 汇编 器 能 够 处 理 多 个 分 离 的 文件 组 成 的 程序 ， 但 和 跟踪 程序 配合 使 用 时 整个 程序 必须 在 一 
个 单独 的 文件 中 ， 并 以 “.$” 作 为 文件 扩展 名 。 在 程序 内 部 ， 包 含 文件 可 以 使 用 下 面 的 名 令 : 











~ 


页 






| 






EEN 

LN | W | 
EE 
aba E 
has AE oiia 
E 







g 
O 
Z 
Q 









说 
Hah 







\n 
\t 
\\ 
\b 
\f 
\r 





#include filename 
在 这 种 情况 下 ， 需 要 的 文件 最 后 也 要 合并 写 人 到 “.$” 文 件 中 ,位 置 就 是 引用 包含 文件 的 地 
方 。 汇 编 器 检查 包含 文件 是 否 已 经 处 理 过 并 且 只 加 载 了 一 个 拷贝 。 如 果 几 个 文件 使 用 同一 
个 头 文件 的 时 候 这 是 特别 有 用 的 。 在 这 种 情形 中 ， 只 有 一 个 拷贝 被 包含 在 合并 后 的 源 文 件 
中 。 为 了 包含 文件 ，#include 必须 是 一 行 开 始 的 符号 ， 前 面 不 能 有 空格 ， 文 件 路 径 必须 使 用 
双 引 号 。 
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如 果 只 有 一 个 源 文件 ， 比 方 是 pr.s， 并 假设 工程 名 字 是 pr， 那 么 合并 的 文件 就 将 是 pr.$。 
如 果 不 只 一 个 源 文 件 ， 那 么 第 一 个 文件 的 文件 名 将 作为 工程 的 名 字 ， 并 在 汇编 器 链接 多 个 文件 
生成 .$ 文件 的 时 候 作 为 该 文件 的 名 字 。 如 果 命 令 行 中 在 第 一 个 源 文件 之 前 有 “-o projname” 标 
志 ， 那 么 就 不 会 使 用 这 种 缺 省 的 名 字 处 理 方式 ， 这 种 情况 下 合并 后 的 文件 将 以 projname.$ 为 
文件 名 。 

需要 注意 的 是 与 只 有 一 个 源 文件 比较 而 言 在 使 用 包含 文件 的 时 候 还 是 有 一 些 缺 点 的 。 因 
为 这 就 必须 要 求 所 有 文件 中 的 标号 、 变 量 和 常量 的 名 字 都 不 能 相同 。 此 外 ， 最 后 汇编 完 生成 
并 加 载 的 文件 是 projname.$ 文件 ， 所 以 汇编 器 给 出 的 错误 或 者 警告 中 涉及 的 行 号 在 这 种 情况 
下 指 的 是 projname.$ 文件 中 的 行 号 。 对 于 很 小 的 工程 而 言 ， 有 时 候 最 简单 的 办 法 就 是 将 整个 
程序 都 放 到 一 个 文件 中 ， 从 而 避免 使 用 ##nclude。 


C.5.3 与 其 他 8088 汇编 器 的 一 些 区 别 


汇编 器 as88 是 模仿 标准 的 UNIX 汇编 器 的 ， 所 以 它 和 微软 的 宏 汇 编 器 MASM 以 及 
Borland 公司 的 8088 汇编 器 TASM 还 是 有 些 区 别 的 。MASM 和 TASM 都 是 为 MS-DOS 操作 
系统 设计 的 ， 在 某 些 方面 ， 汇 编 器 的 问题 和 操作 系统 的 问题 是 相互 联系 的 。MASM 和 TASM 
都 支持 MS-DOS 允许 的 所 有 8088 内 存 模式 。 例 如 ， 所 有 的 代码 和 数据 都 必须 固定 在 64KB 之 
内 的 微 内 存 模式 ; 代码 段 和 数据 段 可 以 分 别 是 64KB 的 小 内 存 模式 ; 具有 多 个 代码 段 和 数据 段 
的 大 内 存 模式 。 这 些 内 存 模式 的 区 别 主 要 体现 在 段 寄 存 器 的 使 用 上 。 大 内 存 模式 允许 远 调 用 并 
可 以 在 DS 寄存 器 中 改变 。 处 理 器 本 身 在 段 寄 存 器 上 加 了 一 些 限制 , (例如 CS 寄存 器 就 不 能 
在 MOV 指令 中 作为 目的 操作 数 )。 为 了 使 跟踪 能 够 简单 一 些 ，as88 使 用 的 内 存 模 式 类 似 于 小 
内 存 模式 ， 然 而 没有 跟踪 程序 的 汇编 器 能 够 在 没有 额外 限制 的 条 件 下 处 理 各 个 段 寄存 器 。 

其 他 的 汇编 器 没有 BSS 这 样 的 区 ， 初 始 化 内 存 的 操作 只 在 DATA 区 完成 。 通 常 汇编 文 
件 以 一 些 头 信息 作为 开始 ， 然 后 是 使 用 .data 关键 字 指 示 的 DATA 区 ， 接 着 是 在 .code 关键 字 
之 后 的 程序 正文 ， 文 件 头 部 有 关键 字 title 用 来 命名 程序 ， 关 键 字 model 用 来 给 出 内 存 模式 ， 
关键 字 stack 为 栈 段 预 留 内 存 。 如 果 是 二 进 制 的 com 文件 ， 那 么 就 使 用 微 内 存 模式 ， 所 有 的 
段 寄 存 器 都 是 等 价 的 ， 并 且 合 并 后 的 段 头 部 的 256 个 字 节 预 留 为 “程序 段 前 级 ”。 

这 些 汇 编 器 取代 .WORD、.BYTE 和 .ASCIZ 命令 的 是 关键 字 DW 和 DB， 分 别 用 来 定义 
字 和 字 节 。 在 DB 命令 之 后 ， 可 以 在 一 对 双 引 号 内 部 定义 一 个 字符 串 。 数 据 段 标号 之 后 不 使 
用 骨 号 。 大 内 存 块 的 初始 化 使 用 DUP 关键 字 ， 关 键 字 前 面 是 一 个 数量 ， 后 面 是 一 个 初始 值 。 
例如 ,语句 


LABEL DB 1000 DUP (0) 


初始 化 内 存 从 标号 LABEL 开始 的 1000 个 字 节 ， 字 节 内 容 是 ASCII 码 0。 

此 外 ， 子 程序 的 标号 后 面 也 不 使 用 冒号 ， 而 是 使 用 关键 字 PROC。 在 子 程 序 的 末端 ， 标 
号 要 进行 重复 而 且 后 面 要 跟着 关键 字 ENDP， 这 样 汇编 器 就 能 推断 出 子 程序 准确 的 范围 。 其 
他 的 汇编 器 不 支持 局 部 标号 。 

痢 令 的 关键 字 在 MASM, TASM 和 as88 中 是 同样 的 。 而 且 在 双 操 作 数 指令 中 源 操 作 数 也 
是 放 在 目的 操作 数 之 后 的 。 然 而 ,一 般 的 经 验 是 使 用 寄存 器 来 传递 函数 参数 ， 而 不 是 使 用 栈 。 
但 是 如 果 汇 编程 序 是 在 C 或 者 C++ 程序 中 使 用 的 ， 那 么 我 们 建议 还 是 使 用 栈 ， 这 样 能 够 遵循 
C 子 程序 调用 机 制 。 这 实际 上 并 不 是 什么 真正 的 区 别 ， 因 为 在 as88 中 的 参数 也 可 以 使 用 寄存 
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器 来 代替 栈 。 

MASM, TASM 和 as88 最 大 的 区 别 在 于 如 何 进行 系统 调用 。MASM 和 TASM 通过 系统 
中 断 INT 来 进行 系统 调用 。 最 常用 的 一 个 是 INT 21H， 它 已 经 被 规定 为 MS-DOS 功能 调用 。 
调用 编号 放 到 AX 中 ,这 里 我 们 又 一 次 使 用 寄存 器 来 传递 参数 。 不 同 的 设备 具有 不 用 的 中 断 
向 量 和 中 断 编号 ， 例 如 INT 16H 对 应 BIOS 键盘 函数 ， 而 INT 10H 对 应 显示 函数 。 为 了 使 用 
这 些 函数 编程 ， 程 序 员 必须 知道 大 量 的 设备 相关 信息 。 比 较 而 言 ，as88 中 的 UNIX 系统 调用 
使 用 起 来 就 容易 多 了 。 


C.6 ”跟踪 程序 


跟踪 程序 调试 器 需要 运行 在 一 个 24 x 80 的 普通 (VT100 ) 终端 上 ， 使 用 终端 支持 的 
ANSI 标准 命令 。 在 UNIX 或 者 Linux 机 器 上 ，X-window 系统 的 终端 模拟 器 一 般 都 能 满足 这 
个 需求 。 在 Windows 机 器 上 ， 了 驱动 程序 ansi_sys 通常 在 下 面 描述 的 系统 初始 化 文件 中 加 载 。 


在 跟踪 程序 例子 中 ,我们 已 经 看 见 了 跟踪 程序 窗 
带 寄存 器 的 $è 程序 正文 
a L e e 





口 的 布局 。 如 图 C-10 所 示 ， 跟 踪 程 序 屏幕 被 分 成 


7 个 窗口 。 TEP 错误 输出 域 
图 C-10 中 左上 方 是 处 理 器 窗口 ， 以 十 进 制 表 输入 域 
示 来 显示 通用 寄存 器 的 值 ， 以 十 六 进 制 表示 来 显 sat 


式 其 他 寄存 器 的 值 。 由 于 程序 计数 器 的 数值 没有 
太 多 的 指导 意义 ， 在 程序 计数 器 下 面 给 出 了 在 程 PER 

序 源 代码 中 它 相 对 于 前 面 全 局 标号 的 位 置 。 在 程 图 C-10 跟踪 程序 窗口 

序 计数 器 域 正 上 方 是 5 个 条 件 码 。 溢 出 位 用 “v” 来 表示 ,方向 标志 用 “>” 和 “<” 来 表示 ， 
“>” 代 表 增加 , “<” 代 表 减 少 。 符 号 位 用 “n” 表 示 负 数 ， 用 “p” 表 示 零 和 正 数 。 零 标志 位 
用 “z” 来 置 位 ， 进 位 位 用 “c” 来 置 位 。 符 号 “-” 表 示 相 应 的 标志 位 被 清除 。 

上 方 中 间 的 窗口 用 于 栈 ， 使 用 十 六 进 制 显 式 。 栈 指针 用 箭头 “=>” 来 表示 。 子 程序 返回 
地 址 用 在 十 六 进 制 值 前 面 加 上 一 个 数字 符 来 表示 。 右 上 方 的 窗口 显 式 一 部 分 源 文件 ， 其 中 包 
含 下 一 条 将 要 执行 的 指令 。 程 序 计数 器 的 位 置 也 使 用 “=>” 来 给 出 。 

处 理 器 下 方 的 窗口 显示 的 是 最 近 的 源码 子 程序 调用 的 位 置 。 在 这 个 窗口 的 下 面 是 跟踪 程 
序 命令 窗口 ， 窗 口 的 上 部 是 前 面 使 用 过 的 命令 ， 底 部 是 命令 光标 。 需 要 指出 的 是 每 条 命令 都 
要 以 键入 回 车 作为 结束 ( 在 PC 机 的 键盘 上 标注 是 Enter 的 键 )。 

底部 窗口 能 够 容纳 全 局 数据 存储 器 的 6 个 条 目 。 每 个 条 目 都 以 和 某 个 标号 相对 应 的 位 置 
开始 ， 紧 随 其 后 的 是 它 在 数据 段 的 绝对 位 置 。 接 下 来 是 一 个 冒号 ， 然 后 是 8 个 十 六 进 制 表示 
的 字 节 。 后 面 的 11 个 位 置 保留 给 字符 ， 条 目的 最 后 是 4 个 十 进 制 表示 的 字 。 字 节 、 字 符 和 字 
实际 上 都 代表 的 是 相同 的 内 存 内 容 ， 但 在 字符 表示 中 我 们 有 3 个 附加 的 字 节 。 这 主要 是 为 了 
方便 ， 因 为 在 起 始 处 并 不 清楚 数据 是 用 作 带 符号 整数 、 无 符号 整数 还 是 用 作 字 符 串 。 

中 间 右 侧 的 窗口 用 来 进行 输入 和 输出 。 第 一 行 用 于 跟踪 程序 的 错误 输出 ， 第 二 行 用 于 答 
入 ， 剩 下 的 其 他 行 用 作 输 出 。 错 误 输出 以 字母 “E” 开 始 ， 输 入 以 字母 “1” 开始， 标准 输出 
则 以 “>” 开 始 。 在 输入 行 有 一 个 箭头 “->” 用 来 指明 下 次 要 读 取 的 指针 。 如 果 程 序 调 用 read 
或 者 getchar， 那 么 跟踪 程序 命令 行 的 下 一 个 输入 将 进入 输入 域 。 在 这 个 窗口 中 也 一 样 ， 必 须 
以 回 车 来 结束 输入 行 。 命 令 行 没有 处 理 的 部 分 可 以 在 箭头 “>” 之 后 找到 。 






s o ooo RE 


通常 ， 跟 踪 程 序 要 接收 它 的 命令 ， 还 要 从 标准 输入 接收 输入 。 然 而 ， 在 控制 传 给 标准 输 
和 之前， 要 事先 准备 一 个 跟踪 程序 命令 文件 和 一 个 要 读 入 的 输入 行文 件 。 跟 踪 程 序 命令 文件 
以 t 为 扩展 名 ,输入 文件 以 .i 为 扩展 名 。 在 汇编 语言 中 ,大 写字 符 和 小 写字 符 都 能 够 用 于 键 
盘 、 系 统 子 程序 和 伪 指 令 。 在 汇编 过 程 中 ， 还 会 产生 扩展 名 为 .$ 的 文件 ， 在 这 个 文件 中 小 写 
的 关键 字 被 转换 为 大 写 并 且 回 车 字符 被 丢弃 。 这 样 对 于 每 个 工程 pr 而 言 ， 我 们 加 起 来 有 6 个 
不 同 的 文件 : 

1 ) prs 是 汇编 程序 源 代码 。 

2) pr.$ 是 合成 的 源 文件 。 

3) pr.88 是 装 入 的 文件 。 

4) pri 是 预 置 的 标准 输入 。 

5) prt 是 预 置 的 跟踪 程序 命令 。 

6 ) pr# 链接 汇编 码 到 装 人 文件 。 
跟踪 程序 最 后 使 用 的 文件 用 来 填充 显示 器 右上 方 的 窗口 和 程序 计数 器 域 。 跟 踪 程 序 检查 装 人 
文件 在 程序 源 文件 做 最 新 修改 之 后 是 否 已 经 创建 ; 如 果 没 有 将 会 产生 一 个 警告 。 


跟踪 程序 命令 


图 C-11 列 出 了 跟踪 程序 命令 。 最 重要 的 是 单 击 回 车 命令 和 退出 命令 q， 前 者 列 在 表 中 的 
第 一 行 ， 用 来 执行 一 条 人 处理 器 指令 ， 后 者 在 表 中 的 最 后 一 行 。 如 果 命 令 是 一 个 数字 ， 那么 就 
执行 相应 的 多 条 指令 。 使 用 一 个 数字 命令 k 和 键入 k 次 回 车 效果 是 一 样 的 。 即 使 数字 后 面 跟 
着 一 个 惊叹 号 “!” 或 者 一 个 义 也 是 如 此 。 


说 AA 


在 当前 行 设置 断 点 
清除 在 当前 行 的 断 点 


执行 程序 直到 下 一 行 
执行 到 断 点 或 者 结束 
运行 到 相同 的 子 程序 层 





图 C-11 跟踪 程序 命令 。 每 条 命令 必须 以 回 车 作为 结束 (Enter 键 )。 空 白 格 表示 只 要 一 个 回 
车 。 表 中 没有 地 址 域 的 命令 就 是 没有 地 址 。 符 号 # 表 示 一 个 整 型 偏 移 量 
命令 g 可 以 转 到 源 文件 特定 的 一 行 ， 这 个 命令 有 三 种 用 法 。 如 果 命 令 之 前 有 一 个 行 号 ， 
那么 跟踪 程序 就 执行 到 行 号 对 应 的 那 行为 止 。 如 果 使 用 标号 /T， 后 面 可 以 带 或 者 不 带 +H, BB 
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么 程序 的 停止 行 要 从 指令 标号 T 开 始 计算 。 如 果 g 命令 之 前 没有 任何 指示 符号 ， 那 么 跟踪 程 
序 就 一 直 执行 命令 直到 再 次 回 到 当前 行 。 

命令 /label 对 于 指令 标号 和 数据 标号 是 不 同 的 。 对 于 数据 标号 ， 窗 口 底 部 的 一 行将 被 从 
标号 处 开始 的 数据 填 满 或 者 替换 。 对 于 指令 标号 ， 它 和 g 命令 是 等 价 的 。 标 号 还 可 以 带 有 一 
个 符号 和 一 个 数字 (图 C-11 中 用 # 表示 )， 表 示 从 标号 开始 的 偏 移 量 。 

在 指令 中 可 以 设置 断 点 (breakpoint )。 这 是 由 命令 b 完成 的 ， 命 令 前 面 还 可 以 加 上 指令 
标号 、 标 号 偏 移 量 等 。 如 果 程 序 执行 过 程 中 遇 到 带 有 上 断 点 的 行 ， 那 么 跟踪 程序 就 停 下 来 。 如 
果 要 想 从 断 点 处 重新 开始 运行 ， 就 需要 输入 回 车 或 者 运行 命令 。 如 果 省 略 了 标号 和 数字 ， 那 
么 断 点 就 设置 在 当前 行 。 使 用 断 点 清除 命令 c 可 以 清除 断 点 ， 和 命令 b 一样 ,命令 c 之 前 也 
可 以 跟 标 号 和 数字 。 还 要 一 个 运行 命令 r， 此 命令 使 得 跟踪 程序 连续 运行 ， 直 到 遇 到 断 点 、 退 
出 调用 ， 或 者 所 有 命令 执行 完毕 。 

跟踪 程序 还 保留 程序 运行 的 子 程序 层次 的 轨迹 信息 。 这 一 信息 显示 在 处 理 器 窗口 下 方 的 
窗口 ， 可 以 通过 栈 窗 口中 的 指示 数字 来 观察 。 基 于 这 些 层 次 有 三 条 命令 。 一 命令 可 以 使 跟踪 
程序 运行 到 比 当前 层次 少 一 层 的 子 程序 层 。 实 际 上 这 条 命令 所 作 的 就 是 执行 指令 直到 当前 子 
程序 结束 。 和 一 相反 的 命令 是 + 命令， 使 得 跟踪 程序 运行 到 遇 到 下 一 个 子 程序 为 止 。= 命令 
则 使 得 跟踪 程序 运行 到 和 当前 层次 相同 的 层次 ， 并 且 可 以 用 来 执行 一 个 使 用 了 CALL 命令 的 
子 程序 。 如 果 使 用 了 = 命令 ， 子 程序 的 运行 细节 就 不 会 在 跟踪 程序 窗口 中 显示 。 还 有 一 个 相 
关 的 命令 mn， 它 使 得 程序 运行 直到 遇 到 程序 的 下 一 行 。 这 条 命令 的 特殊 用 途 是 实现 LOOP fff 
环 命令 ， 当 循环 体 的 末端 刚好 执行 完毕 的 时 候 就 停止 执行 。 
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这 一 节 我 们 将 介绍 如 何 使 用 这 些 工具 。 首 先 必须 将 相关 的 工具 软件 安装 到 用 户 使 用 的 平 
台 上 。 我 们 提供 了 Solaris, UNIX, Linux 和 Windows 平台 上 的 已 经 编译 好 的 版 本 。 工 具 软 
件 可 以 在 CD-ROM 中 找到 ， 也 可 以 从 地 址 为 www.prenhall.com/tanenbaum 的 网 页 上 得 到 。 在 
这 个 网 页 上 点 击 本 书 的 合作 网 站 ,进入 后 再 点 击 左 侧 菜 单 上 的 链接 。 解 压缩 选中 的 文件 到 目 
XK assembler 中 。 这 个 目录 及 其 子 目录 中 包括 了 所 有 必需 的 资料 。 在 CD-ROM 上 ， 主 目录 是 
Bigendnx、LtlendNx 和 MSWindos， 在 每 个 目录 下 都 有 一 个 assembler 的 子 目 录 ， 各 种 必需 的 
材料 都 在 这 个 子 目录 中 。 三 个 上 层 目 录 分 别 对 应 的 是 大 端 派 UNIX (如 Sun 工作 站 )、 小 端 派 
UNIX (如 PC 上 的 Linux ) 和 Windows 系统 。 

解压 缩 并 拷贝 相关 目录 文件 之 后 ，assembler 目录 下 应 该 包括 下 列 的 子 目录 和 文件 : 
READ ME, bin, 、as_src 、trce_src、examples 和 exercise。 编 译 好 的 源 文件 可 以 在 bin 目录 下 
找到 ， 为 了 方便 在 examples 目录 下 还 有 一 份 二 进 制 码 的 拷贝 。 

要 想 快速 浏览 系统 是 如 何 工作 的 ， 可 以 在 examples 目录 下 键 人 下 面 的 命令 : 


t88 HiloWrld 
这 条 命令 对 应 C.8 节 中 的 第 一 个 例子 。 

汇编 器 的 源 代 码 放 在 目录 as_src 中 。 源 代码 文件 是 用 C 语言 编写 的 ， 使 用 make 命令 可 
以 重新 编译 这 些 源 代码 。 对 于 POSIX 兼容 的 平台 ， 在 源 代码 目录 中 都 有 Makefile 文件 来 完成 
相关 的 工作 。 对 于 Windows 平台 ， 则 有 一 个 批 处 理 文件 make.bat。 此 外 ， 可 能 还 需要 将 编译 
之 后 的 可 执行 文件 转移 到 一 个 程序 目录 ， 或 者 修改 环境 变量 PATH 使 得 汇编 器 as88 和 跟踪 程 
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FF t88 在 包含 汇编 源 代码 的 目录 中 就 可 用 。 作 为 一 种 选择 ， 不 直接 键入 t88， 而 是 使 用 全 路 径 
名 称 也 是 可 以 的 。 

在 Windows 2000 和 XP 系统 中 ， 必 须要 在 配置 文件 config.nt 中 加 入 下 面 一 行 来 安装 ansi.sys 
终端 驱动 程序 : 


device=%systemRoot%\System32\ansi.sys 


这 个 配置 文件 的 位 置 如 下 : 


Windows 2000: \winnt\system32\config.nt 
Windows XP: __\windows\system32\config.nt 


在 UNIX fil Linux 系统 中 ， 这 个 驱动 程序 通常 是 标准 配备 。 


C.8 例子 


在 C.2 ~ C.4 这 几 节 中 ， 我们 讨论 了 8088 处 理 器 及 其 内 存 和 指令 。 接 着 在 C.5 节 中 我 
们 学 习 了 本 指南 中 使 用 的 as88 汇编 语言 。 在 C.6 节 我 们 分 析 了 跟踪 程序 。 最 后 在 C7 Yh, 
我 们 介绍 了 如 何 使 用 工具 包 。 理 论 上 来 说 ， 这 些 信息 对 于 利用 提供 的 工具 编写 和 调试 汇编 程 
序 已 经 足够 了 。 不 过 ， 对 于 很 多 读者 而 言 ， 看 一 些 汇编 程序 详细 的 例子 以 及 如 何 使 用 跟踪 程 
序 进行 调试 将 大 有 神 益 。 这 也 正 是 设置 本 节 的 初衷 。 本 节 中 讨论 的 所 有 例子 程序 在 工具 包 
examples 目录 下 都 能 找到 。 和 希望 读者 最 好 能 够 将 我 们 讨论 的 每 一 个 例子 都 进行 汇编 并 跟踪 调试 。 


C.8.1 “Hello World” 示 例 


下 面 我 们 就 从 图 C-12 中 的 HlloWrld.s 这 个 例子 开始 。 程 序列 在 左 侧 的 窗口 中 。 由 于 汇编 
器 的 注释 符号 是 感叹 号 “!"， 所 以 在 程序 窗口 中 使 用 它 来 分 离 指令 和 行 号 。 前 面 三 行 是 常量 
定义 ， 用 来 连接 两 个 系统 调用 与 输出 文件 的 惯用 名 称 和 它们 对 应 的 内 部 表示 。 






































-EXIT=1 14 CS: 00 DS=SS=ES: 002 MOV CX,de-hw t'G 
_WRITE =4 1 2 AH:00 AL:0c AX: 12 PUSH CX ! 7 
_STDOUT =1 13 ||BH:00 BL:00 BX: PUSH HW 1 8 
SECT .TEXT 14 CH:00 CL:0c CX: 12 PUSH _STDOUT i 9 
start: 15 ||DH:00 DL:00 DX: PUSH _WRITE 110 
MOV CX,de-hw 16 ||SP: 7fd8 SF O D z ZC 141 
PUSH CX 17 BP: 0000 CC ADD SP,8 112 
PUSH hw 18 Si: 0000 IP: oboc: PC. SUB CX,AX 143 
PUSH _STDOUT !9 Di: 0000 start +7 PUSH CX 1 14 
PUSH _WRITE 110 
SYS 111 
ADD SP,8 112 
SUB CX,AX 113 
PUSH CX 114 > Hello World\n 
PUSH _EXIT !15||hw + 0 = 0000: 48 65 6c 6c 6f 20 57 6f Hello World 25928 
SYS 116 
EGT .DATA 117 
118 
ane "Hello World\n" !19 
de: .BYTE 0 ! 20 HN 
a) HlloWrld.s b) 对 应 的 跟踪 程序 窗口 
图 C-12 


第 4 行 的 伪 指 令 SECT 用 来 声明 下 面 的 行将 作为 TEXT 区 的 一 部 分 ; 也 就 是 处 理 器 指令 
类 似 地 ,第 17 行 指明 后 续 的 行为 数据 。 第 19 行 初始 化 一 个 12 个 字 节 的 数据 字符 串 ， 包括 空 
[726] 格 和 末端 的 换行 符 。 
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第 5、18 和 20 行 是 标号 ， 用 冒号 “:” 来 标记 。 这 些 标号 代表 和 常量 类 似 的 数值 值 。 但 
是 在 这 种 情况 下 ， 汇 编 器 必须 要 确定 这 些 数 值 值 。 因 为 start 是 TEXT 区 的 起 始 部 分 ， 它 的 值 
将 是 0, 但 是 TEXT 区 中 任何 一 个 后 续 标 号 (例子 中 可 能 没有 标 出 ) 的 值 都 要 根据 它们 前 面 
代码 的 字 节 数 计算 得 到 。 现 在 我 们 看 一 下 第 6 行 ， 这 一 行 的 最 后 是 两 个 标号 的 差 ， 实 际 上 这 
个 差 是 一 个 数值 常量 。 因 此 , 第 6 行 和 下 面 的 指令 是 等 效 的 。 


MOV CX,12 


只 是 在 这 种 情况 下 是 由 汇编 器 来 确定 字符 串 长 ， 而 不 是 由 程序 员 来 确定 。 此 处 给 出 的 值 正 是 
给 第 19 行 的 字符 串 预 留 的 数据 空间 数目 。 第 6 行 的 MOV 是 拷贝 命令 , 它 将 de-hw 的 值 拷贝 
到 CX。 

第 7 ~ 11 行 展示 的 是 在 工具 包 中 如 何 进行 系统 调用 。 这 5 行 是 从 C 语言 的 函数 调用 


write(1, hw, 12); 


翻译 过 来 的 汇编 码 。 函 数 调用 的 第 一 个 参数 是 标准 输出 的 文件 描述 符 ( 1 )， 第 二 个 参数 是 将 
要 打印 的 字符 串 的 地 址 (hw )， 第 三 个 参数 是 串 的 长 度 (12) 第 7 ~ 9 行将 这 些 参数 以 道 
序 的 方式 压 人 栈 ， 这 是 C 调用 的 顺序 ， 跟 踪 程序 采用 的 也 是 这 种 顺序 。 第 10 行将 write 的 系 
统 调用 编号 (4 ) AR, E 11 行进 行 实际 的 调用 。 这 个 调用 顺序 是 模仿 PC 上 的 UNIX (或 
Linux ) 中 实际 汇编 语言 程序 的 调用 顺序 ， 对 于 不 同 的 操作 系统 ， 这 个 顺序 可 能 要 进行 适当 的 
修改 以 适应 它们 的 调用 习惯 。 虽 然 汇编 器 as88 和 跟踪 程序 t88 是 运行 在 Windows 操作 系统 上 
的 ， 但 是 它们 都 采用 的 是 UNIX 的 调用 习惯 。 

第 11 行 的 系统 调用 进行 实际 的 打印 操作 。 第 12 行进 行 栈 清 理工 作 ， 将 栈 指针 恢复 为 
4 个 2 字 节 的 字 人 栈 之 前 的 值 。 如 果 write 调用 成 功 ， 那 么 写 人 的 字 节 数 将 由 AX 返回 。 第 
13 行 从 保存 原始 长 度 的 CX 中 减 去 第 11 行 的 调用 结果 来 判断 调用 是 否 成 功 ， 也 就 是 看 是 
否 所 有 的 字 节 都 已 经 写 人 。 因 此 ， 如 果 成 功 那 么 程序 的 退出 状态 就 为 0， 如 果 失 败 就 是 其 
他 值 。 第 14 和 15 行为 第 16 行 exit 系统 调用 做 准备 ， 将 退出 状态 和 EXIT 调用 的 功能 码 
人 栈 。 

需要 注意 的 是 在 MOV 和 SUB 指令 中 第 一 个 参数 是 目的 操作 数 ， 第 二 个 是 源 操 作 数 。 这 
是 我 们 的 汇编 器 的 习惯 用 法 ; 其 他 汇编 器 可 以 采用 相反 的 顺序 。 选 用 哪 种 顺序 没有 什么 特别 
的 原因 。 

现在 我 们 就 来 对 HlloWrld.s 进行 汇编 并 运行 它 。 我 们 将 给 出 UNIX 和 Windows 平台 上 的 
指令 。 对 于 Linux, Solaris, MacOS X 以 及 其 他 UNIX 操作 系统 的 变种 ， 过 程 本 质 上 和 UNIX 
平台 上 是 一 样 的 。 首 先 ， 打 开 一 个 命令 提示 (shell) 窗口 。 在 Windows 系统 中 ， 通常 可 以 按 
照 下 面 的 顺序 单 击 : 


Start > Programs > Accessories > Command prompt 


接 下 来 ， 使 用 cd (改变 目录 ) 命令 进入 examples 目录 。 命 令 参 数 将 根据 工具 包 放 置 在 文件 

系统 中 的 位 置 来 决定 。 然 后 再 检查 一 下 汇编 器 和 跟踪 程序 的 可 执行 码 是 否 在 这 个 目录 中 , 在 

UNIX 系统 中 使 用 ls 命令 ， 在 Windows 系统 中 使 用 dir 命令 。 这 两 个 程序 的 名 字 分 别 是 as88 和 

t88。 在 Windows 系统 中 ， 这 两 个 文件 的 扩展 名 是 exe, BENS PRBS. WRC BRE 

和 跟踪 程序 不 在 examples 目录 中 ， 那 么 就 找到 这 两 个 程序 并 把 它们 拷贝 到 这 个 目录 中 。 
现在 我 们 就 用 下 面 的 命令 来 汇编 测试 程序 : 
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as88 HlloWrld.s 
如 果 汇 编 需 在 examples 目录 中 但 是 命令 却 给 出 了 错误 信息 ， 那 么 在 UNIX 系统 中 可 以 试 一 试 
键入 : 


./as88 HlloWrld.s 
在 Windows 系统 中 可 以 键入 : 


.\as88 HlloWrld.s 
如 果 汇 编 过 程 完 全 正确 ， 那 么 将 显示 下 面 这 些 信息 : 


Project HlloWrld listfile HlloWrld.$ 
Project HlloWrld num file HlloWrld.# 
Project HlloWrld loadfile HiloWrld.88. 


并 生成 相应 的 三 个 文件 。 如 果 没 有 错误 消息 ， 可 以 使 用 下 面 的 跟踪 程序 命令 : 


t88 HiloWrid 
跟踪 程序 启动 ， 并 且 右 上 方 的 窗口 中 会 有 箭头 指向 第 6 行 的 


MOV CX,de-hw 
指令 。 现 在 键入 回 车 (PC 键盘 上 的 Enter 4), 那么 可 以 看 到 指向 的 指令 现在 是 


PUSH CX 
左边 窗口 中 的 CX 的 值 现 在 也 变 为 12。 再 次 键入 回 车 可 以 看 到 中 间 窗 口 最 上 一 行 出 现 值 
000C， 也 就 是 十 六 进 制 的 12。 这 个 窗口 显示 的 是 栈 ， 栈 中 有 一 个 值 为 12 的 字 。 现 在 键入 3 
次 回 车 可 以 看 到 第 8、9、10 行 的 PUSH 指令 被 执行 。 此 时 ， 栈 将 有 4 项， 而 且 左 侧 窗 日 中 的 
程序 计数 器 的 值 将 是 000b。 

接着 键入 回 车 ， 执 行 系统 调用 ， 字 符 串 “Hello World\n” 将 显 式 在 右 下 方 的 窗口 中 。SP 
此 时 的 值 为 0x7ff0。 再 次 键入 回 车 之 后 ，SP 的 值 增加 了 8 变 为 0x7ff8。 再 键入 4 次 回 车 ，exit 
系统 调用 完成 ,跟踪 程序 也 随 之 退出 。 

为 了 确保 你 真正 理解 了 这 些 工 作 过 程 ， 你 可 以 用 你 所 喜欢 的 编辑 器 打开 hlloWrld.s X 
件 。 当 然 最 好 是 用 字 处 理 软 件 打 开 ， 在 UNIX 系统 中 你 可 以 使 用 ex、vVvi 或 者 emacs 等 , 在 
Windows 系统 中 notepad 是 一 个 简单 的 编辑 器 ， 可 以 通过 下 面 的 方式 打开 ; 


Start > Programs > Accessories > Notepad 


最 好 不 要 用 Word 软件 ， 因 为 在 Word 中 显示 看 起 来 不 对 ， 而 且 输 出 将 是 错误 的 格式 。 
打开 hlloWrld.s 文件 之 后 ， 修 改 第 19 行 的 字符 串 以 显示 不 同 的 消息 ;然后 保存 文件 ， 重 
新 汇编 并 使 用 跟踪 程序 运行 。 现 在 可 以 说 你 已 经 开始 进行 汇编 语言 程序 设计 了 。 


C.8.2 ”通用 寄存 器 示例 


下 一 个 例子 详细 示范 了 如 何 显示 寄存 器 内 容 以 及 8088 处 理 器 乘法 的 一 个 缺陷 。 在 图 
C-13 中 ,程序 genReg.s 的 一 部 分 显示 在 左 侧 。 程 序 的 右 侧 是 两 个 跟踪 程序 的 寄存 器 窗口 ,分 
别 对 应 程序 执行 的 不 同 阶段 。 图 C-13b 给 出 了 第 7 行 执行 后 的 寄存 器 状态 。 第 4 行 的 
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MOV AX,258 
指令 将 值 258 装 人 AX， 这 个 操作 的 结果 就 是 AH 的 值 为 1，AL 的 值 为 2。 第 5 行将 AL 加 
到 AH， 这 样 AH 等 于 3。 在 第 6 行 ， 变 量 times HAF (10) 拷贝 到 CX。 在 第 7 行 ， 变 量 
muldat 的 地 址 被 装 入 BX, muldat 此 时 的 值 为 2， 因 为 它 位 于 DATA 段 的 第 二 个 字 节 。 此 时 寄 
存 器 的 状态 如 图 C-13b 所 示 。 需 要 注意 的 是 此 时 AH 是 3,AL 是 2,AX 也 是 所 期 望 的 770 ( 即 
3 x 256+2=770 )。 


























aa 13 CS:00 DS=SS=ES002 CS:00 DS=SS=ES002 
poe pape AH:03 AL:02 AX: 770| |AH:38AL:80 AX: 14464 
MOV CX, (times) 16 BH:00 BL:02 BX: 2 BH:00 BL:02 BX: 2 
MOV BxX,muldat ! 7 CH:00CL:0a CX: 10 CH:00CL:04 CX: 4 
MOV AX,(BX) 18 DH:00 DL:00 DX: 0 DH:00 DL:01 DX: 1 
lip: aana cet nia SP: 7fe0 SF ODS ZC SP: 7tap SF -ODS ZC 
p ! s S 34 : á 
‘SECT DATA 144 Hn 0000 Pe, > p BP. 0000 sh > p c 
times: .WORD 10 112 Sl: 0000 IP:0009:PC Sl: 0000 IP:0011:PC 
muldat :: WORD 65,2 113 DI: 0000 start + 4 DI: 0000 start +7 
a) 部 分 程序 b) 第 7 行 执行 后 的 跟踪 程序 寄存 器 窗口 c) 寄存 器 
图 C-13 
下 一 条 指令 ( 见 第 8 行 ) 将 muldat 的 内 容 拷贝 到 AX 中 。 这 样 键入 回 车 之 后 AX 就 将 


是 625。 

现在 我 们 准备 进入 一 个 循环 ， 用 内 存 2(BX) 地 址 处 的 字 ( 即 muldatt2, (8292) 与 AX 
的 内 容 相 乘 。MUL 指令 的 隐 式 目的 操作 数 是 DX : AX 构成 的 长 整数 寄存 器 组 合 。 在 第 一 次 
循环 过 程 中 ， 结 果 在 一 个 字 表 示 的 范围 内 ， 所 以 AX 中 就 是 结果 1250, DX 保持 为 0。7 次 乘 
法 之 后 所 有 寄存 器 的 内 容 如 图 C-13 所 示 。 

由 于 AX 开始 时 值 为 625， 那 么 经 过 7 次 乘 以 2 的 乘法 之 后 结果 为 80 000。 这 个 结果 在 
AX 中 就 放 不 下 了 ， 乘 积 此 时 就 要 保存 在 串 连 的 32 位 寄存 器 DX: AX 中 ， 此 时 DX 41, AX 
为 14 464。 数 字 值 就 是 1 x 65 536+14 464， 实 际 上 也 就 是 80 000。 需 要 注意 的 是 这 里 CX 为 
4， 因 为 LOOP 指令 每 一 次 循环 就 将 CX 值 减 1。 开始 的 时 候 CX 的 值 为 10， 执行 7 次 MUL 
指令 (BÆ LOOP 指令 只 重复 了 6 次 ) 之 后 CX 的 值 修改 为 4。 

下 一 次 乘法 操作 就 出 现 了 问题 。 乘 法 使 用 AX 而 不 是 DX， 所 以 MUL 将 AX (14 464) 
FEW 2 得 到 28 928。 这 就 导致 AX 中 是 28 928，DX 中 是 0， 从 数字 上 来 看 是 不 正确 的 。 


C.8.3 调用 命令 和 指针 寄存 器 


下 一 个 例子 vecprod.s 是 一 个 用 来 计算 两 个 向 量 vecl 和 vec2 内 积 的 小 程序 ， 如 图 C-14 
所 示 。 730 
程序 的 第 一 部 分 为 调用 vecmul 做 准备 ， 先 把 SP 保存 在 BP 中 ， 然 后 将 vec2 和 vecl 的 
地 址 人 栈 ， 这 样 vecmul 就 能 够 访问 它们 。 第 8 行将 向 量 的 长 度 按照 字 节 数 加 载 到 CX 中 。 第 
9 行将 结果 右 移 1 位 ， 此 时 CX 中 将 是 向 量 的 字数 ， 第 10 行将 这 个 字数 入 栈 。 第 11 行进 行 
vecmul 调用 。 
需要 再 次 强调 的 是 根据 习惯 子 程序 参数 是 逆序 入 栈 的 ， 这 和 C 语 言 中 的 调用 习惯 相 一 
RX, ME, AC 中 也 可 以 使 用 下 面 的 方式 来 调用 vecmul。 


vecmul(count, vec1, vec2) 
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在 CALL 指令 中 ,返回 地 址 将 入 栈 。 如 果 程 序 在 跟踪 程序 中 和 运行， 那么 这 个 地 址 就 会 是 
0x0011。 





-EXIT =1 1 1 define the value of _EXIT 
_PRINTF = 127 ! 2 define the value of PRINTF 
.SECT .TEXT ! 3 start the TEXT segment 
inpstart: ! 4 define label inpstart 
MOV BPSP ! 5 save SP in BP 
PUSH vec2 ! 6 push address of vec2 
PUSH vec1 ! 7 push address of vec1 
MOV CX,vec2-vec1 ! 8 CX = number of bytes in vector 
SHR CX,1 ! 9 CX = number of words in vector 
PUSH CX !10 push word count 
CALL vecmul !11 call vecmul 
MOV (inprod),AX !12 move AX 
PUSH AX !13 push result to be printed 
PUSH pfmt !14 push address of format string 
PUSH _PRINTF !15 push function code for PRINTF 
SYS !16 call the PRINTF function 
ADD SP12 !17 clean up the stack 
PUSH 0 !18 push status code 
PUSH _EXIT !19 push function code for EXIT 
SYS !20 call the EXIT function 
vecmul: !21 start of vecmul(count, vec1, vec2) 
PUSH BP !22 save BP on stack 
MOV BP,SP !23 copy SP into BP to access arguments 
MOV CxX,4(BP) 124 put count in CX to control loop 
MOV SI,6(BP) 125 Sl=veci 
MOV DI,8(BP) 126 DI= vec2 
PUSH 0 !27 push 0 onto stack 
1: LODS 128 move (SI) to AX 
MUL (DI) 129 multiply AX by (DI) 
ADD -2(BP),AX !30 add AX to accumulated value in memory 
ADD DI,2 !31 increment DI to point to next element 
LOOP 1b !32 if CX > 0, go back to label 1b 
POP AX !33 pop top of stack to AX 
POP BP !34 restore BP 
RET !35 return from subroutine 
.SECT .DATA !36 start DATA segment 
pfmt: .ASCIZ "Inner product is: %d\n" ! 37 define string 
ALIGN 2 !38 force address even 
veci:.WORD 3,4,7,11,3 !39 vector 1 
vec2:.WORD 2,6,3,1,0 140 vector 2 
.SECT .BSS !41 start BSS segment 
inprod: .SPACE 2 !42 allocate space for inprod 








图 C-14 程序 vecprod .s 


子 程序 的 第 一 条 指令 是 第 22 行 的 PUSH 指令 ， 将 基 址 指令 BP 和 人 栈 。 保 存 BP 是 因为 我 
们 要 使 用 这 个 寄存 器 来 寻 址 子 程序 的 参数 和 局 部 变量 。 接 下 来 的 第 23 行 栈 指 针 被 拷贝 到 BP 
寄存 器 中 ， 这 样 基 址 指针 的 新 值 就 指向 旧 值 。 

现在 一 切 都 准备 好 了 ， 可 以 加 载 参数 到 寄存 器 中 并 为 局 部 变量 预 留 空 间 。 再 往 下 的 三 
行 ， 分 别 从 栈 中 取出 各 个 参数 并 把 它们 放 到 寄存 器 中 。 再 次 说 明 一 下 栈 是 面向 字 的 ， 所 以 栈 
地 址 都 是 偶数 。 返 回 地 址 紧 挨 着 旧 的 基 址 指针 ， 因 此 它 可 以 通过 2(BP) 来 寻 址 。 接 下 来 的 参 
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数 count 通过 4(BP) 来 寻 址 ， 它 在 第 24 行 被 加 载 到 CX 中 。 第 25 和 26 行 ,vecl 加 载 到 SI 中， 
vec2 加 载 到 DI 中 。 子 程序 需要 一 个 初 值 为 0 的 局 部 变量 来 保存 中 间 结 果 ， 所 以 最 后 在 第 27 
行将 值 0 ARR 

图 C-15 给 出 了 处 理 器 在 第 28 行 进入 第 一 次 循环 前 的 状态 。 图 C-15 中 最 上 面 中 间 
的 那个 较 罕 的 窗口 ( 寄存 器 右 侧 的 窗口 ) 显 式 的 是 栈 的 内 容 。 在 栈 的 底部 是 vec2 的 地 
tt (0x0022 )， 往 上 是 vecl 的 地 址 (0x0018) 和 第 三 个 参数 ， 也 就 是 向 量 的 元 素 个 数 
( 0x0005 )。 接 下 来 栈 中 是 返回 地 址 (0x0011 )。 这 个 地 址 左 侧 的 数字 1 表示 它 是 主 程序 下 一 
层 的 一 个 返回 地 址 。 寄 存 器 下 面 的 窗口 也 显 式 着 同样 一 个 数字 1， 这 次 给 出 的 是 它 的 符号 地 
址 。 栈 中 返回 地 址 之 上 是 旧 的 BP {A (0x7fc0 ) 和 在 第 27 行人 栈 的 0。 箭头 所 指向 的 值 表示 
SP 所 指 的 位 置 。 栈 右 侧 的 窗口 显 式 的 是 程序 正文 的 一 部 分 ， 箭 头 所 指 的 是 下 一 条 将 要 执行 的 
指令 。 





















MOV BP,SP 15||CS:00 DS= ee maak PUSH BP 1 2 

PUSH vec2 16 || AH:00 AL:00 0 MOV BP,SP 1 23 

PUSH vec1 ! 7 ||BH:00 BL:00 BX: 0 MOV CX,4(BP) ! 24 

MOV CX,vec2-veci ! 8 || CH:00CL:05 CX: 5 |=>0000 MOV SI,6(BP) ! 2 

SHR CX,1 |! 9 ||DH:00 DL:00 DX: 0| 7fc0 MOV DI,8(BP) ! 2 

PUSH CX !10/|SP:7fb4 SF ODS ZC/1 0011 PUSHO ! 27 

CALL vecmul !11||BP: 7fb6 CC - >pz- 0005|=>1: LODS ! 28 

-一 -一 一 Sl: 0018 IP:0031:PC 0018 MUL (DI) ! 29 
vecmul : !21||Dl: 0022 vecmul+7 0022 ADD -2(BP),AX ! 30 

PUSH BP 122 

MOV BP,SP 123 i 1 

MOV CX,4(BP) 124||1 <= inpstart + 7 

MOV SI,6(BP) 125 

MOV DI,8(BP) 126 > 

USH 127 vecisd SQ: S D A ih Ob a discus 3 
1: LODS t28| | vec240' =0022; 2 -0r 6 O'S OT" Oe es 

MUL (Di) 129||pfmt+0 =0000:54 68 65 20 69 6e 20 70 The in prod 28708 

ADD -2(BP),AX 130|| pfmt+18 =0012:25 64 21 a 0 0 3 O%d!........ 25637 

ADD DI,2 131 

LOOP 1b 132 











图 C-15 程序 vecprod.s 第 一 次 执行 到 第 28 行 时 的 情况 


现在 我 们 来 看 一 下 从 第 28 行 开始 的 循环 。 指 令 LODS 直接 通过 寄存 器 SI 从 数据 段 加 载 
一 个 内 存 字 到 AX 中 。 因 为 方向 标志 被 置 1，LODS 就 处 于 自 增 模式 ， 所 以 指令 执行 后 SI 将 
指向 vecl 的 下 一 项 。 

如 果 想 看 看 图 形 界面 的 结果 ， 可 以 使 用 下 面 的 命令 打开 跟踪 程序 : 


t88 vecprod 
当 跟 踪 程 序 窗口 出 现 之 后 ， 敲 人 下 面 的 命令 然后 回 车 : 


/vecmul+7b 


这 样 就 会 在 指令 LODS 所 在 行 设置 一 个 断 点 。 从 现在 开始 ， 我 们 不 再 单独 说 明 回 车 键 的 使 用 ， 
因为 所 有 的 命令 都 要 使 用 回 车 。 然 后 ， 键 入 命令 
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使 得 跟踪 程序 连续 执行 命令 ， 直 到 遇 到 断 点 为 止 。 也 就 是 说 运行 到 包含 LODS 指令 的 那 一 行 
才 停 止 。 

在 第 2947, AX 的 值 和 源 操作 数 相 乘 。 用 于 MUL 指令 的 内 存 字 通过 DI 采 用 寄存 器 间接 
寻 址 的 方式 从 数据 段 取 出 。MUL 的 隐 式 目的 操作 数 是 DX : AX 这 个 长 整数 寄存 器 组 合 ， 虽 
然 指令 中 并 没有 明确 给 出 ， 但 是 实际 使 用 的 是 这 两 个 寄存 器 的 组 合 。 
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在 第 30 行 ， 结 果 被 加 到 栈 地 址 -2(BP) 处 的 局 部 变量 中 。 因 为 MUL 指令 没有 自 增 操作 
数 的 功能 ， 所 以 必须 在 第 31 行 显 式 进行 这 样 的 操作 。 这 之 后 DI 就 指向 vec2 的 下 一 项 。 

LOOP 指令 完成 下 面 这 个 步 又。 寄存 器 CX 自动 减 1， 如 果 这 时 CX 的 值 还 是 正 数 的 话 ， 
那么 程序 就 跳 转 到 第 28 行 的 局 部 标号 1 处 。 使 用 局 部 标号 lb 意味 着 从 当前 位 置 向 后 退 到 最 
近 的 标号 1 处 。 本 次 循环 之 后 ， 子 程序 将 返回 值 出 栈 并 放 到 AX 中 ( 见 第 33 行 )， 恢复 BP 
( 见 第 34 行 )， 然 后 返回 到 调用 程序 ( 见 第 35 行 )。 

然后 ， 主 程序 继续 执行 第 12 行 的 MOYV 指令 。 包 括 MOV 在 内 的 连续 5 条 指令 的 作用 是 
打印 结果 。 系 统 调 用 printf 是 模仿 标准 C 语言 库 中 的 printf 函数 的 。 第 13 ~ 15 行将 3 个 参 
数 人 栈 。 这 几 个 参数 分 别 是 将 要 打印 的 整数 值 ， 格 式 串 的 地 址 (pfmt)， 以 及 printf 的 功能 码 
( 127 )。 需 要 指出 的 是 格式 串 中 的 %d 表示 调用 printf 有 一 个 整 型 变量 做 参数 来 完成 输出 。 

第 17 行 清理 栈 。 由 于 程序 在 第 5 行 开 始 保存 栈 指针 到 基 址 指针 中 ， 所 以 我 们 可 以 使 用 下 
面 的 指令 来 进行 栈 清理 。 

MOV SPBP 


这 种 解决 方案 的 好 处 是 程序 员 不 用 在 过 程 中 保持 栈 平衡 。 对 主 程序 而 言 这 不 是 一 个 大 问 
题 ， 但 是 在 子 程序 中 这 可 是 去 掉 诸 如 无 用 的 局 部 变量 等 内 存 垃圾 的 简单 方法 。 
子 程序 vecmul 可 以 被 其 他 程序 引用 。 如 果 源 文件 vecprod.s 被 放 在 命令 行 中 另 一 个 汇编 
源 文 件 的 后 面 ， 那 么 这 个 子 程序 就 可 以 用 来 进行 两 个 固定 长 度 向 量 的 乘法 。 建 议 首先 最 好 去 
掉 常 量 定义 _EXIT 和 _PRINTF， 这 样 能 够 避免 它们 被 重复 定义 。 如 果 头 文件 syscalnrh 在 某 
733] 处 被 引用 ,那么 在 其 他 地 方 就 不 需要 再 定义 系统 调用 常量 。 


C.8.4 调试 数组 打印 程序 


在 前 面 的 例子 中 ,分 析 的 例子 都 非常 简单 而 且 没 有 错误 。 现 在 我 们 来 看 一 下 如 何 使 用 跟 
踪 程 序 调试 不 正确 的 程序 。 下 面 的 程序 假设 要 打印 一 个 整数 数组 ， 数 组 由 标号 vecl 标识 。 然 
而 ， 最 初 的 程序 有 3 个 错误 。 虽 然 汇 编 器 和 跟踪 程序 可 以 用 来 纠正 这 些 错误 ， 但 我 们 还 是 先 
来 分 析 一 下 代码 。 

因为 每 个 程序 都 需要 系统 调用 ， 所 以 就 必须 定义 一 些 常量 来 标识 调用 编号 ， 我 们 把 这 些 
调用 标号 的 常量 定义 放 到 一 个 单独 的 头 文 件 ../syscalnr.h 中 ， 代 码 的 第 1 行 所 引用 的 也 就 是 这 
个 文件 。 此 文件 中 还 为 文件 描述 符 定义 了 一 些 如 下 常量 。 

STDIN=0 

STDOUT=1 

STDERR =2 

它们 在 进程 一 开始 就 打开 ， 然 后 是 正文 和 数据 段 的 头 标 号 。 把 这 个 文件 包含 在 所 有 汇编 
程序 源 文件 的 头 部 是 明智 的 选择 ， 因 为 它们 都 是 要 经 常 使 用 的 定义 。 如 果 源 程序 不 止 一 个 文 
件 ， 那 么 汇编 器 只 包含 这 个 头 文件 的 第 一 个 拷贝 ， 从 而 避免 常量 的 重复 定义 。 

程序 arrayprt 如 图 C-16 所 示 。 这 里 去 掉 了 程序 的 注释 ， 因 为 现在 我 们 对 指令 的 功能 已 
经 很 熟悉 了 。 这 样 我 们 就 可 以 采用 双 栏 格式 。 程 序 第 4 行将 空 栈 地 址 放 到 基 址 指针 寄存 器 
中 以 使 第 10 行将 基 址 指针 拷贝 到 栈 指针 来 进行 栈 清 理 ， 这 再 我 们 前 面 的 例子 中 已 经 介绍 
过 了 。 我 们 在 前 面 的 例子 中 也 看 到 了 第 5 ~ 9 行 所 示 的 如 何在 调用 前 计算 和 入 栈 参 数 。 

第 22 ~ 25 行 在 子 程序 中 加 载 寄 存 器 。 
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#include "../syscalnr.h" .SECT .TEXT 
vecprint: 
.SECT .TEXT ! PUSH BP 
vecpstrt: MOV BPSP 
MOV BPSP MOV CX,4(BP) 
PUSH veci ! MOV BX,6(BP) 
MOV CX,frmatstr-vect ! MOV SI,0 
SHR CX PUSH frmatkop 
PUSH CX PUSH frmatstr 
CALL vecprint PUSH _PRINTF 
MOV SPBP sys 
PUSH 0 MOV -4(BP),frmatint 
PUSH _EXIT ! : MOV DI,(BX)(SI) 
SYS ! MOV -2(BP),DI 
SYS 
-SECT .DATA ! INC SI 
vec1: .WORD 3,4,7,11,3 ! LOOP 1b 
frmatstr: .ASCIZ "%s" PUSH \n' 
PUSH _PUTCHAR 
frmatkop: SYS 
.ASCIZ "The array contains" ! 18 MOV SPBP 
frmatint: .ASCIZ " %d" 119 RET 








图 C-16 调试 之 前 的 arrayprt 程序 


第 27 ~ 30 行 给 出 了 如 何 打印 一 个 字符 串 ， 第 31 ~ 34 行 给 出 了 对 一 个 整数 值 的 printf 
系统 调用 。 注 意 字符 串 的 地 址 在 第 27 行 已 经 人 栈 ， 而 在 第 33 行将 整数 值 人 栈 。 这 两 种 情况 
下 格式 字符 串 的 地 址 都 是 PRINTF 的 第 一 个 参数 。 第 37 ~ 39 行 给 出 了 如 何 使 用 putchar 系统 
调用 打印 单独 的 一 个 字符 。 

现在 我 们 来 汇编 并 运行 程序 ， 键 入 下 面 的 命令 : 


as88 arrayprt.s 


然后 我 们 在 arrayprt.$ 文件 的 第 28 行 会 看 到 一 个 操作 数 错误 。 这 个 文件 是 由 汇编 器 在 合并 
包含 文件 和 源 文件 的 过 程 中 产生 的 ， 合 并 的 文件 将 作为 汇编 器 的 实际 输入 。 那 么 第 28 行 到 
底 是 什么 呢 ? 我 们 不 得 不 仔细 地 来 看 看 arrayprt.$ 的 第 28 行 。 需 要 说 明 的 是 我 们 不 能 直接 查 
看 arrayprt.s 的 第 28 行 ， 这 两 个 文件 是 不 一 致 的 。 因 为 在 arrayprt.$ 文件 中 头 文 件 被 逐 行 加 
入 ， 因 为 包含 的 头 文 件 syscalnrh 有 21 行 ， 所 以 arrayprit.$ 的 第 28 行 对 应 的 是 arrayprt.s 
的 第 7 行 。 

在 UNIX 系统 中 有 一 种 简单 的 方法 来 找到 arrayprit.$ 的 第 28 行 。 键 入 下 面 的 命令 : 

head -28 arrayprt.$ 


就 会 显 式 合 并 后 的 文件 的 前 28 行 。 列 表 最 下 面 一 行 就 是 错误 所 在 的 行 。 采 用 这 种 方法 (或 者 
使 用 编辑 器 打开 文件 找到 第 28 行 ) 我 们 看 到 错误 是 在 源 程序 的 第 7 行 ， 这 一 行 中 有 SHR 指 
So 比较 这 行 代码 和 图 C-4 中 的 指令 表 我 们 发 现 问题 所 在 : 移 位 的 数量 漏 掉 了 。 正 确 的 第 7 
行 应 该 是 : 


SHR CX,1 


需要 特殊 注意 的 是 错误 必须 在 最 初 的 源 文 件 arrayprts 中 进行 修改 ， 而 不 是 在 合并 后 的 
arrayprt.$ 文件 中 修改 ， 因 为 后 者 在 汇编 器 每 次 被 调用 的 时 候 都 会 自动 重新 生成 。 
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下 面 再 次 汇编 这 个 源 代码 就 会 成 功 了 。 然 后 可 以 键入 下 面 的 命令 启动 跟踪 程序 。 
t88 arrayprt 


在 跟踪 的 过 程 中 ， 我 们 可 以 看 到 输出 和 数据 段 中 的 向 量 不 一 致 。 向 量 包 含 的 是 : 3、4、7、11、3， 
但 是 跟踪 程序 中 显 式 的 值 是 : 3、1024、…… 。 显然 又 是 什么 地 方 出 问题 了 。 

为 了 找到 错误 ， 可 以 再 次 运行 跟踪 程序 ， 逐 步 进行 ， 检 查 机 器 的 状态 直到 打印 出 错误 的 
值 。 要 打印 的 值 是 保存 在 内 存 的 第 32 和 33 行 。 既 然 打 印 的 是 错误 的 值 ， 那 么 就 应 该 看 看 这 
个 地 方 出 了 什么 错 。 第 二 次 循环 我 们 看 到 SI 是 一 个 奇数 ,但 显然 SI 应 该 是 一 个 偶数 ， 因 为 
它 是 按 字 来 索引 的 ， 而 不 是 字 节 。 问 题 出 在 第 35 行 ， 它 将 SI 加 1， 实 际 上 应 该 是 加 2。 为 了 
修改 这 个 错误 ， 将 这 一 行 改 为 : 

ADD SI,2 


纠正 这 个 错误 之 后 ， 打 印 的 数字 列表 就 正确 无 误 了 。 

然而 ， 还 有 一 处 错误 在 等 着 我 们 。 当 vecprint 结束 并 返回 时 ， 跟 踪 程序 开始 抱怨 栈 指针 。 
显而易见 ， 现 在 要 检查 当 vecprint 被 调用 时 人 栈 的 值 是 不 是 第 41 行 RET 指令 执行 时 栈 顶 的 
值 。 答案 是 否定 的 。 解 决 问题 的 办 法 是 在 第 40 行 加 入 下 面 两 行 : 


ADD SP10 
POP BP 


第 一 条 指令 移 除 vecprint 调用 时 入 栈 的 5 个 字 ， 这样 就 将 第 22 行 保存 的 BP 值 暴 露 在 栈 顶 。 
将 此 值 出 栈 放 到 BP 中 ， 我 们 就 能 恢复 BP 到 调用 前 的 值 ， 并 将 正确 的 返回 地 址 置 于 栈 顶 。 现 
在 程序 就 能 正确 结束 了 。 调 试 汇 编 代 码 与 其 说 是 科学 不 如 说 是 艺术 ， 但 是 有 了 跟踪 程序 还 是 
比 直接 在 硬件 上 运行 容易 了 许多 。 


C.8.5 字符 串 处 理 和 字符 串 指令 


本 节 的 主要 目的 是 介绍 如 何 处 理 可 重复 的 字符 串 指令 。 在 图 C-17 中 有 两 个 简单 的 
字符 串 处 理 程序 ， 它 们 是 strngcpy.s 和 reverspr.s， 读 者 在 examples 目录 中 可 以 找到 。 
图 C-17a 中 的 程序 是 一 个 拷贝 字符 串 的 子 程序 ， 它 调用 了 在 另外 一 个 单独 文件 stringpr.s 
中 的 一 个 子 程序 stringpr。 本 附录 没有 列 出 这 个 子 程序 。 为 了 能 够 汇编 包含 位 于 单独 文件 
中 子 程序 的 程序 ,， 需 要 在 as88 命令 中 列 出 所 有 的 源 文件 。 主 程序 所 在 的 文件 要 放 到 最 前 
面 ， 因 为 它 决定 了 可 执行 文件 和 辅助 文件 的 名 字 。 例 如 ， 对 于 图 C-17a 中 的 程序 要 使 用 下 
面 的 命令 : 

as88 strngcpy.s stringpr.s 
图 C-17b 中 的 程序 以 逆序 输出 字符 串 。 下 面 我 们 就 依次 来 看 看 这 两 个 程序 。 

为 了 证 明 行 号 实际 上 只 是 注释 ， 在 图 C-17a 中 我 们 从 第 一 个 标号 开始 对 各 行进 行 编号 ， 
忽略 掉 它 们 之 前 的 部 分 。 第 2 ~ 8 行 主 程序 首先 调用 有 两 个 参数 的 strngcpy， 第 一 个 参数 
是 源 字符 串 mesg2， 第 二 个 是 目的 字符 串 mesgl1， 调 用 的 目的 是 将 源 字符 串 拷贝 到 目的 字 
符 串 中 。 

现在 我 们 分 析 一 下 从 第 9 行 开始 的 stngcpy。 它 需要 在 子 程序 调用 之 前 人 栈 的 目的 缓冲 
区 和 源 字符 串 的 地 址 。 第 10 ~ 13 行 ， 保 存 要 使 用 的 寄存 器 到 栈 ， 以 便 后 面 第 27 ~ 30 行进 
行 恢复 。 第 14 行 和 通常 一 样 拷贝 SP 到 BP。 现 在 BP 可 以 用 来 加 载 参数 了 。 第 26 行 再 次 将 
BP 拷贝 到 SP 来 清除 栈 。 
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.SECT .TEXT #include "../syscalnr.h" 
stcstart: 1 1 
PUSH mesg1 1 2 start: MOV DI,str 
PUSH mesg2 !3 PUSH AX 
CALL strngcpy 14 MOV BP,SP 
ADD SP4 15 PUSH _PUTCHAR 
PUSH 0 1 6 MOVB ALAn' 
PUSH 1 ee MOV CX,-1 
SYS 1 8 REPNZ SCASB 
strngepy: 19 NEG CX 
PUSH CX 110 STD 
PUSH SI 114 DEC CX 
PUSH DI 112 SUB DI,2 
PUSH BP 113 MOV SI,DI 
MOV BP,SP 114 1: LODSB 
MOV AX,0 115 MOV (BP),AX 
MOV DI,10(BP) 116 SYS 
MOV CX,-1 117 LOOP 1b 
REPNZ SCASB 118 MOVB (BP),\n’ 
NEG CX 119 SYS 
DEC CX 120 PUSH 0 
MOV SI,10(BP) 121 PUSH _EXIT 
MOV DI,12(BP) 122 SYS 
PUSH DI 123 .SECT .DATA 
REP MOVSB 124 str: .ASCIZ "reverse\n" 
CALL stringpr 125 
MOV SPBP 126 
POP BP 127 
POP DI 128 
POP SI 129 
POP CX 130 
RET 131 
.SECT .DATA 132 
mesg1: .ASCIZ "Have a look\n" 133 
mesg2: .ASCIZ "qrst\n" 134 
.SECT .BSS 
a) 拷贝 字符 串 (strngcpy.s) b) 逆序 打印 字符 串 (reversprs) 
图 C-17 


子 程序 的 核心 是 第 24 行 的 指令 REP MOVSB。 指 令 MOVSB 将 SI 指向 的 字 节 拷贝 到 DI 
指向 的 内 存 地 址 中 ， 然 后 SI 和 DI 分别 加 1。REP 会 产生 一 个 循环 ， 使 得 指令 能 够 重复 执行 ， 
每 移动 一 个 字 节 CX 就 减 1， 当 CX 减 到 0 的 时 候 循环 结束 。 

然而 在 运行 REP MOVSB 循环 之 前 ， 我 们 必须 先 要 对 寄存 器 进行 设置 ， 第 15 ~ 22 行 完 
成 的 就 是 这 项 工作 。 在 第 21 行 ， 栈 中 的 参数 拷贝 到 源 变 址 寄存 器 SI; 在 第 22 行 ， 对 DI 进行 
了 同样 操作 。 获 得 CX 的 值 有 些 棘 手 。 因 为 字符 串 的 结束 是 使 用 字 节 0 来 标记 的 。MOVSB 指 
令 不 影响 0 标志 ， 但 是 指令 SCASB ( 扫描 字 节 串 ) 却 影响 。 它 比较 DI 指 向 的 值 和 AL 的 值 ， 
同时 对 DI 加 1。 此 外 ， 它 和 MOVSB 指令 一 样 是 可 重复 的 。 因 此 , 第 15 行 AX 以 及 AL 被 置 
0, 第 16 行 DI 的 指针 从 栈 中 取出 ,第 17 行 CX 初始 为 -1。 第 18 行 是 REPNZ SCASB， 它 的 
功能 是 循环 比较 ， 如 果 相 等 就 设置 0 标志 。 循 环 的 每 一 步 CX 都 减 1， 当 0 标志 置 1 的 时 候 循 
环 停止 ， 因 为 REPNZ 同时 检查 0 标志 和 CX。MOVSB 循环 的 步 数 是 在 第 19 和 第 20 行 通过 
计算 CX 现在 的 值 与 初始 时 候 的 -1 的 差 来 得 到 的 。 

比较 令 人 讨厌 的 是 必须 有 两 条 的 可 重复 串 指令 ， 但 这 就 是 设计 选择 的 代价 ， 因 为 要 保证 
移动 指令 不 能 影响 条 件 码 。 循 环 期 间 变 址 寄存 器 必须 增 1， 所 以 方向 标志 必须 要 进行 清除 。 
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第 23 ~ 25 行 通 过 子 程序 stringpr 打印 拷贝 的 字符 串 ， 这 个 子 程序 可 以 在 examples 目录 
中 找到 ， 它 非常 简单 ， 这 里 就 不 讨论 了 。 

图 C-17b 中 给 出 的 是 逆序 打印 程序 ,第 1 行 引 用 常用 的 系统 调用 编号 。 第 3 行将 一 个 哑 
THAR, 第 4 行 基 址 指针 BP 用 来 指向 当前 的 栈 顶 。 此 程序 将 逐个 打印 Asci 码 ， 因 此 数 
字 值 PUTCHAR 人 栈 。 需 要 注意 的 是 当 进 行 SYS 调用 时 ，BP 就 指向 要 打印 的 字符 。 

第 2、6 和 7 行为 可 重复 的 SCASB 指令 准备 寄存 器 DI、AL 和 CX。 计 数 寄存 器 和 目的 
变 址 寄存 器 采用 和 上 述 例子 中 类 似 的 方法 加 载 ， 但 是 AL 的 值 是 换行 符 ， 而 不 是 值 0。 这 样 ， 
SCASB 指令 将 对 字符 串 str 的 字符 值 和 \n 进行 比较 ， 而 不 是 和 0 进行 比较 ， 如 果 遇 到 \n 那么 
就 设置 0 标志 。 

REP SCASB 增加 DI 寄存 器 的 值 ， 所 以 如 果 命中 ,那么 目的 变 址 寄存 器 就 指向 新 行 之 后 
的 字符 0。 在 第 12 行 DI 减 2， 这 样 它 就 能 够 指向 词 的 最 后 一 个 字母 了 。 

如 何 能 逆序 扫描 字符 串 并 逐个 字符 打印 ， 我 们 就 达到 了 目的 ， 因 此 第 10 行 设 置 方向 标志 
以 使 得 字符 串 指 令 中 变 址 寄存 器 的 调整 向 相反 的 方向 进行 。 现 在 第 :14 行 的 LODSB 拷贝 AL 
中 的 字符 ， 第 15 行将 字符 入 栈 ， 紧 挨 着 PUTCHAR， 所 以 SYS 指令 打印 的 就 是 这 个 字符 。 

第 18 和 第 19 行 的 指令 打印 额外 的 新 行 ， 在 进行 常规 的 _EXIT 调用 之 后 程序 关闭 。 

程序 当前 的 版 本 有 一 个 错误 。 如 果 程 序 逐 步 跟踪 调试 的 话 就 能 发 现 这 个 错误 。 

命令 /str 将 把 字符 串 str 放 到 跟踪 程序 的 数据 域 。 由 于 数据 地 址 的 数字 值 已 经 给 出 ， 所 以 
我 们 能 够 知道 变 址 寄存 器 处 理 字符 串 位 置 的 相关 数据 。 

然而 ， 错 误 需 要 键入 多 次 回 车 才能 遇 到 。 使 用 跟踪 程序 命令 我 们 能 较 快 地 发 现 问题 。 启 
动 跟踪 程序 然后 键入 命令 13 使 得 我 们 进入 循环 中 间 。 如 果 现 在 给 出 命令 b， 那 么 我 们 就 在 第 
15 行 设 置 一 个 断 点 。 如 果 再 回 车 两 次 ， 就 会 发 现 最 后 一 个 字母 e 打印 在 输出 域 。 命 令 r 可 以 
使 得 跟踪 程序 一 直 运行 直到 遇 到 断 点 或 者 程序 结束 。 采 用 这 种 方式 ， 我 们 可 以 通过 重复 地 使 
用 tr 命令 来 处 理 字 母 ， 这 样 我 们 也 就 越 来 越 接 近 问 题 所 在 。 由 此 来 看 ,我 们 可 以 每 次 使 跟踪 
程序 运行 一 步 ， 这 样 我 们 就 能 发 现在 错误 指令 处 会 发 生 什 么 。 

我 们 也 可 以 将 断 点 设置 在 一 特殊 行 ， 但 必须 记 住 我 们 引用 了 文件 ./syscalnr， 这 将 使 得 
行 号 偏 移 20。 结 果 就 是 第 16 行 的 断 点 要 用 命令 36b 来 设置 。 这 显然 不 是 一 个 好 的 解决 方案 ， 


所 以 最 好 还 是 使 用 第 2 行 指令 前 面 的 全 局 标号 start， 并 在 命令 中 使 用 /startt14b， 这 样 做 能 够 


将 断 点 放 到 同样 的 位 置 ， 但 不 再 需要 记 住 引用 文件 的 大 小 。 
C8.6 分派 表 


在 一 些 编程 语言 中 ， 经 常会 使 用 case 或 者 switch 语句 来 从 多 个 选择 中 选中 一 个 来 跳 转 ， 
具体 选择 哪个 要 根据 变量 的 数值 来 决定 。 有 些 时候 ， 在 汇编 语言 程序 中 也 需要 这 样 的 多 路 选 
择 。 举 个 例子 ， 比 如 一 组 系统 调用 就 组 合 在 一 个 单独 的 SYS 陷阱 例 程 中 。 图 C-18 所 示 的 是 
程序 jumptbl.s， 它 给 出 了 在 8088 汇编 程序 中 如 何 进行 多 路 选择 编程 。 

程序 以 打印 标号 为 strt 的 字符 串 开始 ， 请 求 用 户 输入 一 个 8 进 制 数 (第 4 行 ~ 第 7 行 
然后 从 标准 输入 读 人 一 个 字符 (第 8 行 和 第 9 行 )。 如 果 AX 的 值 小 于 5， 那么 程序 认为 它 是 
文件 结束 标志 ， 然 后 跳 转 到 第 22 行 的 标号 8， 以 状态 码 0 退出 程序 。 

如 果 没 有 遇 到 文件 结束 标志 ,那么 就 检查 AL 中 的 输入 字符 。 任 何 小 于 数字 0 的 字符 都 
被 认为 是 空白 并 忽略 然后 跳 转 到 第 13 行 ， 继 续 接 收 另外 的 字符 。 任 何 大 于 数字 9 的 字符 都 将 
被 认为 是 错误 输入 ,在 第 16 行 ， 它 将 被 映射 为 ASCII 码 的 冒号 ， 也 就 是 ASCIH 字符 序列 中 9 
的 后 继 。 
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#include "../syscalnr.h" : MOV AX,mesO 125 


.SECT .TEXT JMP 9f 126 
jumpstrt: : MOV AX,mes1 127 


PUSH strt 

MOV BPSP 
PUSH _PRINTF 
SYS 

PUSH _GETCHAR 
: SYS 

CMP AX,5 

JL 8f 

CMPB AL,’ 
JL 1b 

CMPB AL, 9' 
JLE 2f 

MOVB AL; 9+1 

: MOV BX,AX 
AND BX,OXf 
SAL BX,1 
CALL tbl(BX) 
JMP 1b 


JMP 9f 


: MOV AX,mes2 


JMP 9f 


: MOV AX,mes3 


JMP 9f 


: MOV AX,mes4 


JMP 9f 


: MOV AX,mes5 


JMP 9f 


: MOV AX,mes6 


JMP 9f 


: MOV AX,mes7 


JMP 9f 


: MOV AX,mes8 


JMP 9f 


: MOV AX,emes 


PUSH AX 
PUSH -PRINTF 


128 
129 
130 
131 
132 
133 
! 34 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 


: PUSH 0 SYS 146 
PUSH _EXIT ADD SP4 147 
SYS RET 148 


.SECT .DATA 149 
tbl: .WORD rout0,rout1 ,rout2,rout3,rout4, rout5,rout6,rout7,rout8,rout8,erout 150 
mes0: .ASCIZ "This is a zero.\n" 151 
mes1: .ASCIZ "How about a one.\n" 152 
mes2: .ASCIZ “You asked for a two.\n" 153 
mes3: .ASCIZ “The digit was a three.\n" 154 
mes4: .ASCIZ "You typed a four.\n" 155 
mes5: .ASCIZ "You preferred a five.\n" 156 
mes6: .-ASCIZ "A six was encountered.\n" 157 
mes7: .ASCIZ "This is number seven.\n" 158 
mes8: .ASCIZ "This digit is not accepted as an octal.\n" 159 
emes: .ASCIZ "This is not a digit. Try again.\n" 160 
strt: ,ASCIZ “Type an octal digit with a return. Stop on end of file.\n" 161 


图 C-18 使 用 分 派 表 示范 多 路 分 支 的 程序 


这 样 ， 在 第 17 行 我 们 就 在 AX 中 得 到 数字 0 和 冒号 之 间 的 一 个 值 。 这 个 值 被 拷贝 到 BX 
中 。 在 第 18 行 ， 利 用 AND 指令 屏蔽 掉 除 了 最 低 4 位 之 外 的 所 有 位 ， 这 样 就 使 得 数值 介 于 
0 ~ 10 之 间 (因为 ASCII 码 0 是 0x30)。 由 于 我 们 要 对 一 个 字 表 进行 索引 ， 而 不 是 字 节 表 ， 
所 以 在 第 19 行 BX 的 值 通过 左 移 被 乘 以 2。 

第 20 行 是 一 条 调用 指令 。 有 效 地 址 是 BX 的 值 加 上 标号 tbl 的 数值 值 ， 这 个 合成 地 址 的 
内 容 加 载 到 程序 计数 器 PC 中 。 

此 程序 根据 从 标准 输入 取得 的 字符 从 十 个 子 程序 里 面 选择 一 个 。 这 些 子 程序 都 将 一 些 消息 
的 地 址 人 栈 然后 跳 转 到 PRINTF 系统 子 程 序 调用 ， 这 个 PRINTF 子 程序 调用 是 大 家 共用 的 。 

为 了 理解 到 底 会 发 生 了 什么 ,我们 需要 知道 IMP 和 CALL 指令 能 加 载 一 些 正文 段 地 址 到 
PC 中 。 这 样 的 地 址 是 一 个 二 进 制 数 ， 汇 编 过程 中 所 有 的 地 址 都 使 用 它们 的 二 进 制 值 蔡 代 。 这 些 
二 进 制 值 能 够 用 来 初始 化 数据 段 的 数组 ， 第 50 行 完成 了 这 些 操 作 。 因 此 从 bl 开始 的 数组 包含 
着 rout0、routl 、tou2 等 的 起 始 地 址 ， 每 个 地 址 两 个 字 节 。 两 字 节 地 址 的 需求 也 解释 了 为 什么 
在 第 19 行 我 们 需要 进行 一 次 移 位 操作 。 这 种 类 型 的 表 我 们 通常 称 为 分 派 表 (dispatch table )。 

这 些 例 程 如 何 运 行 可 以 从 第 43 行 ~ 第 48 行 的 erout 例 程 中 看 到 。 这 个 例 程 处 理 了 数字 越 
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界 问题 。 首 先 ,AX 中 的 消息 地 址 在 第 43 行人 栈 。 接 着 是 _PRINTEF 系统 调用 编号 人 栈 。 然 后 ， 
进行 系统 调用 ， 栈 被 清除 ， 例 程 返 回 。 其 他 9 个 例 程 rout0 ~ rout8， 每 个 例 程 都 加 载 它 们 私 
有 消息 的 地 址 到 AX 中 ， 然 后 跳 转 到 erout 的 第 二 行 输出 消息 并 结束 子 程序 。 

为 了 熟悉 分 派 表 ， 跟 踪 程 序 的 时 候 可 以 输入 几 个 不 同 的 输入 字符 。 作 为 练习 ， 程 序 可 以 
修改 为 针对 任何 不 同 字符 都 能 产生 实际 的 操作 。 例 如 ， 除 了 8 进 制 数字 之 外 的 所 有 字符 都 给 
出 一 个 错误 消息 。 


C.8.7 ”缓冲 与 随机 文件 访问 


图 C-19 中 的 程序 mFilBufs 示范 了 对 文件 的 随机 IJVO。 文 件 可 以 假定 由 很 多 行 构成 ， 不 
同 的 行 具 有 不 同 的 长 度 。 程 序 首先 读 文件 并 建立 一 张 表 ， 表 项 n 就 是 第 n 行 起 始 处 在 文件 中 
的 位 置 。 此 后 ， 如 果 请 求 一 行 ， 那 么 它 的 位 置 就 可 以 在 这 张 表 中 查找 ， 再 通过 1lseek # read 
系统 调用 读 人 此 行 。 文 件 名 在 标准 输入 的 第 一 行 给 出 。 这 个 程序 包括 了 几 个 相当 独立 的 代码 
段 ， 可 以 修改 这 些 代 码 段 用 于 其 他 用 途 。 














#include "../syscalnr.h" | 1 PUSH _EXIT 143 PUSH buf 185 
bufsiz = 512 12 PUSH _EXIT 144 PUSH (fildes) ! 86 
.SECT .TEXT 13 SYS 145 PUSH _READ 187 
infbufst: !4 3; CALL getnum 146 SYS 188 
MOV BPSP Ls CMP AX,0 147 ADD SP8 189 
MOV Dllinein 1 6 JLE 8f 148 MOV CX,AX 190 
PUSH _GETCHAR ! 7 MOV BX, (curlin) 149 ADD BX,CX 191 
1; SYS 1 8 CMP BX,0 150 MOV DI,buf 192 
CMPB AL,'\n’ 19 JLE 7f 151 RET 193 
JL 9f 110 CMP BX,(count) 152 
JE 1f 111 JG 7f 153 getnum: 194 
STOSB 112 SHL BX,1 154 MOV Dllinein 195 
JMP 1b 113 MOV AX,linh-2(BX) !55 PUSH _GETCHAR 196 
1: PUSH O 114 MOV CX,linh(BX) !56 1: SYS 197 
PUSH linein 115 PUSH 0 157 CMPB AL,\n’ 198 
PUSH -OPEN 116 PUSH 0 158 JL 9b 199 
SYS 117 PUSH AX !59 JE 1f 1100 
CMP AX,0 118 PUSH (fildes) 160 STOSB 1101 
JL 9f 119 PUSH _LSEEK 161 JMP 1b 1102 
MOV (fildes) AX !20 SYS 162 1: MOVB (DI),\0’ 1103 
MOV Sllinh+2 121 SUB CX,AX 163 PUSH curlin 1104 
MOV BX,0 122 PUSH CX 164 PUSH numfmt 1105 
1: CALL fillbuf 123 PUSH buf 165 PUSH linein 1106 
CMP CX,0 124 PUSH (fildes) ! 66 PUSH _SSCANF 1107 
JLE 3f 125 PUSH -READ 167 SYS 1108 
2: MOVB AL,\n’ 126 SYS 168 ADD SP10 1109 
REPNE SCASB !27 ADD SP4 !69 RET 1110 
JNE ib 128 PUSH 1 170 
INC (count) 129 PUSH -WRITE 171 .SECT .DATA 1111 
MOV AX,BX 130 SYS 172 errmess: 1112 
SUB AX,CX 131 ADD SP14 173 .ASCIZ "Open %s failed\n" 1113 
XCHG SI,DI 132 JMP 3b 174 numfmt: .ASCIZ "%d" 1114 
STOS 133 8: PUSH scanerr 175 scanerr: 1115 
XCHG SI,DI 134 PUSH -PRINTF 176 .ASCIZ "Type a number.\n"!116 
CMP CX,0 135 SYS 177 .ALIGN2 1117 
JNE 2b 136 ADD SP4 !78 SECT .BSS 1118 
JMP 1b 137 JMP 3b 179  linein: .SPACE 80 1119 
9: MOV SPBP 138 7: PUSHO 180 fildes: .SPACE 2 1120 
PUSH linein 139 PUSH -EXIT 181 linh: .SPACE 8192 1121 
PUSH errmess 140 SYS 182 curlin: .SPACE 4 1122 
PUSH PRINTF 141 fillbuf: 183 buf: .SPACE bufsiz+2 1123 
SYS 142 PUSH bufsiz !84 count: .SPACE 2 1124 





图 C-19 带 缓冲 区 读 和 随机 文件 访问 的 程序 
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程序 的 前 5 行 简单 定义 了 系统 调用 编号 和 缓冲 区 大 小 ， 并 将 基 址 指针 照常 放 到 栈 顶 。 
第 6 ~ 13 行 从 标准 输入 读 入 文件 名 并 作为 字符 串 保 存在 标号 linein 处 。 如 果 文 件 名 不 是 以 换 
行 符 来 结束 ， 就 会 产生 一 个 错误 消息 ， 进 程 继而 以 非 零 状态 结束 。 第 38 ~ 45 行 完 成 这 些 工 
作 。 这 里 需要 注意 ,文件 名 地 址 在 第 39 行人 栈 ， 错 误 消 息 的 地 址 在 第 40 行人 栈 。 如 果 我 们 
查看 错误 消息 本 身 ( 见 第 113 行 )， 那 么 我 们 需要 在 _PRINTF 中 使 用 一 个 %s 格式 串 请 求 。 字 
符 串 linein 的 内 容 会 插入 在 此 处 。 

如 果 文 件 名 的 拷贝 没有 问题 ， 文 件 将 在 第 14 ~ 20 行 被 打开 。 如 果 open 调用 失败 ， 那 
么 返回 值 就 是 负数 ， 而 且 会 跳 转 到 第 28 行 的 标号 9， 继 而 打印 一 个 错误 消息 。 如 果 系 统 调用 
成 功 ， 那 么 返回 值 就 是 文件 描述 符 ， 保 存在 变量 包 des 中 。 这 个 文件 描述 符 在 后 面 的 read 和 
lseek 调用 中 都 要 用 到 。 

HFK, RA 512 个 字 节 为 一 块 来 读 文 件 ， 每 个 文件 块 都 保存 在 缓冲 区 buf 中 。 分 配 
的 缓冲 区 比 必需 的 512 个 字 节 多 两 个 字 节 ， 这 里 也 说 明了 符号 常量 和 整数 可 以 混和 在 一 个 表 
达 式 中 ( 见 第 123 47). 同样, 第 21 行 的 SI 加 载 的 是 数组 linh 的 第 二 项 ， 此 数组 的 未 端 是 一 
个 机 器 字 0。 寄 存 器 BX 中 是 文件 中 第 一 个 未 读 字符 的 文件 地 址 ， 因 此 ， 在 第 22 行 缓冲 区 被 
第 一 次 填 满 之 前 它 的 初 值 是 0。 

缓冲 区 的 填充 是 由 第 83 ~ 第 93 行 的 例 程 fllbuf 来 处 理 的 。 将 read 的 参数 人 栈 之 后 ， 就 
需要 进行 系统 调用 ， 将 实际 读 和 的 字符 数 放 到 AX 中 。 这 个 数 还 要 拷贝 到 CX 中 ， 而 且 缓 冲 
区 中 剩余 的 字符 数 以 后 也 要 保存 在 CX 中 。 文 件 中 第 一 个 未 读 字符 的 文件 位 置 保存 在 BX 中 ， 
所 以 CX 在 第 91 行 必 须 加 到 BX 中 。 第 92 行 把 缓冲 区 未 端 放 和信 DI 中 ， 这 样 能 够 为 在 缓冲 区 
中 扫描 下 一 个 换行 符 做 好 准备 。 

从 fillbuf 返 回 之 后 ， 第 24 行 检 查 是 否 所 有 内 容 的 都 已 经 读 完 。 如 果 没 有 就 跳出 缓冲 区 读 
循环 回 到 第 25 行程 序 的 第 二 部 分 。 

现在 我 们 可 以 开始 扫描 缓冲 区 了 。 符 号 “\n” 在 第 26 行 加 载 到 AL 中 ， 在 第 27 行 这 个 
值 通过 REP SCASB 扫描 并 和 缓冲 区 的 符号 进行 循环 比较 。 有 两 种 方法 结束 循环 : CX 变 为 0 
或 者 扫描 到 一 个 换行 符 。 如 果 0 标志 被 置 1， 那 么 扫描 的 最 后 一 个 符号 就 是 \n， 并 且 当 前 符 
号 (换行 符 的 下 一 个 符号 ) 的 文件 位 置 将 保存 到 数组 linh 中 。 然 后 计数 增加 ， 文 件 位 置 通过 
BX 和 保存 可 用 字符 数 的 CX 来 计算 (第 29 ~ 31 行 )。 第 32 ~ 34 行 进行 实际 存储 工作 ， 但 
由 于 STOS 假定 DI 而 不 是 SI 是 目的 操作 数 ， 所 以 这 两 个 寄存 器 的 值 要 在 STOS 的 前 后 进行 
互 换 。 第 35 ~ 37 行 检查 是 否 缓冲 区 还 有 可 用 数据 ， 并 根据 CX 的 值 进行 跳 转 。 

当 到 达 文 件 尾 部 时 ， 我 们 就 得 到 了 各 行 起 始 文件 位 置 的 完整 列表 。 因 为 我 们 以 字 0 开始 
linh 数组 ， 我 们 就 知道 第 一 行 从 地 址 0 开始 ， 下 一 行 的 起 始 位 置 由 linh+2 等 给 出 。 第 n 行 的 
大 小 可 以 用 第 n+l 行 的 起 始 地 址 减 去 第 n 行 的 起 始 地 址 得 到 。 

程序 其 余部 分 的 目的 是 读 一 行 的 行 号 ， 将 行 读 人 缓冲 区 ， 再 通过 write 调用 输出 。 所 有 必 
须 的 信息 都 能 在 linh 数组 中 找到 ， 数 组 的 第 半 项 是 文件 第 2 行 的 起 始 位 置 。 如 果 请 求 的 行 号 
是 0 或 者 是 越界 的 值 ， 那 么 程序 就 跳 转 到 标号 7 并 结束 。 

程序 这 部 分 从 第 46 行 处 调用 getnum 子 程序 开始 。 例 程 从 标准 输入 读 人 一行 并 保存 在 组 
冲 区 linein H, (从 第 95 ~ 103 行 )。 接 着 ,我 们 为 SSCANF 调用 做 准备 。 考 虑 到 参数 是 逆 
序 的 ， 则 首先 将 保存 整数 值 的 curlin 地 址 人 栈 ， 然 后 是 整数 格式 串 numfmt 的 地 址 ， 最 后 是 组 
THE linein 的 地 址 ， 缓 冲 区 包含 10 进 制 表示 的 数 。 如 果 可 能 系统 子 程序 SSCANE 将 把 二 进 制 
值 放 入 到 curlin 中 。 失 败 的 话 就 在 AX 中 返回 一 个 0。 返 回 值 在 第 48 行进 行 测 试 ， 如 果 失 败 ， 


532 HR C 


那么 程序 通过 标号 8 产生 一 个 错误 消息 。 

如 果 getnum 子 程序 在 curlin 中 返回 一 个 非法 整数 ， 那 么 我 们 首先 将 它 找 贝 到 BX 中 。 接 
着 我 们 在 第 49 ~ 53 行 再 次 测试 值 是 否 越界 ， 如 果 行 号 越界 就 退出 。 

我 们 还 必须 在 文件 中 找 出 选择 行 的 尾部 和 要 读 的 字 节 数 ， 因 此 我 们 通过 左 移 指令 SHL 将 
BX 乘 以 2。 第 55 行将 相关 行 的 文件 位 置 拷贝 到 AX。 下 一 行 的 文件 位 置 保存 在 CX 中 ， 这 样 
我 们 就 能 够 计算 当前 行 的 字 节 数 了 。 

要 对 一 个 文件 进行 随机 读 ， 就 要 使 用 lseek 调用 设置 文件 到 下 一 个 要 读 字 节 的 偏 移 量 。 
lseek 要 从 文件 的 起 始 位 置 算 起 ， 所 以 在 第 57 行 首先 要 将 参数 0 人 栈 来 进行 指示 。 下 一 个 参 
数 是 文件 偏 移 量 。 这 个 参数 被 定义 为 一 个 长 整数 类 型 ( 也 就 是 32 位 整数 )， 所 以 我 们 在 第 58 
和 第 59 行 首先 人 栈 一 个 字 0 然后 是 AX 的 值 ， 这 样 就 形成 了 一 个 32 位 整数 。 接 着 人 栈 的 是 
文件 描述 符 和 LSEEK 的 代码 ， 第 62 行进 行 调用 。LSEEK 的 返回 值 是 所 在 文件 的 当前 位 置 ， 
这 个 值 保存 在 DX : AX 寄存 器 组 人 台中。 如果 一 个 机 器 字 能 够 容纳 这 个 数值 (文件 长 度 小 于 
65 536 个 字 节 )， 那 么 AX 中 就 包含 地 址 ， 从 CX 中 减 去 这 个 寄存 器 的 值 ( 见 第 63 行 )， 得 到 
的 就 是 要 将 一 行 读 人 缓冲 区 还 要 读 入 的 字 节 数 。 

程序 的 其 他 部 分 比较 容易 。 第 64 ~ 68 行 从 文件 中 读 和 一行， 然后 在 第 70 ~ 72 行 通 过 
文件 描述 符 1 写 到 标准 输出 。 需 要 注意 的 是 数量 和 缓冲 区 的 值 在 第 69 行进 行 部 分 栈 清 理 之 后 
仍 在 栈 中 。 最 后 ， 在 第 73 行 我 们 完全 重 置 栈 指针 并 准备 开始 下 一 个 步 又， 我 们 跳 转 到 标号 
3， 重 新 开始 对 getnum 的 另 一 次 调用 。 
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习题 


1. 指令 MOV AX,702 执行 之 后 ，AH 和 AL 中 的 内 容 对 应 的 十 进 制 数 值 是 多 少 ? 

2. CS 寄存 器 的 值 是 4， 那 么 代码 段 的 绝对 内 存 地 址 的 范围 是 多 少 ? 

3. 8088 所 能 访问 的 最 高 的 内 存 地 址 是 多 少 ? 

4. 假设 CS=40，DS=8000，IP=20。 
a. 下 一 条 指令 的 绝对 内 存 地 址 是 多 少 ? 
b. 如 果 执 行 MOV AX, (2 ) 这 条 指令 ， 哪 一 个 内 存 字 将 会 加 载 到 AX 中 ? 

5. 一 个 具有 三 个 整 型 参数 的 子 程序 按照 下 述 描述 的 顺序 被 调用 ,调用 的 具体 情况 是 : 调用 者 
按照 逆序 将 三 个 参数 压 人 栈 ， 然 后 执行 一 条 CALL 指令 。 被 调用 者 保存 旧 的 BP 并 设置 新 
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的 BP 指向 已 保存 的 旧 BP。 然 后 栈 指针 为 局 部 变量 分 配 空间 而 递减 。 在 上 面 这 些 约 定 限制 
下 ， 给 出 将 第 一 个 参数 移 人 AX 所 需要 的 指令 。 
.在 图 C-1 中 ， 表 达 式 de-hw 作为 一 个 操作 数 使 用 ， 它 的 值 是 两 个 标号 的 差 。 那 么 可 能 出 现 
把 de+hw 作为 一 个 合法 操作 数 的 情况 吗 ? 试 分 析 你 的 答案 。 
. 给 出 计算 下 面 表达 式 的 汇编 代码 : 
x=atb+2 
8. 有 一 个 C 语言 函数 具有 如 下 声明 : 
foobar (x, y); 
给 出 使 用 这 个 函数 调用 的 汇编 代码 。 
9. 编写 一 个 汇编 程序 ， 使 它 能 够 接受 一 个 整数 、 操 作 符 、 另 一 个 整数 及 其 输入 表达 式 ， 并 输 
出 该 表达 式 的 值 。 其 中 操作 符 可 以 是 +、-、x 和 /。 
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四 种 油墨 的 打印 机 )，125 

Coarse-grained multithreading ( 粗 粒度 并 行 )，563 

COBOL ( 面向 商业 的 通用 语言 )，39，359 

Code generation ( 代码 生成 )，716 

Code page (7491), 138 

Code point ( 码 点 )，139 

Code segment ( 代码 段 )，694 

Codesign ( 电码 化 )，27 

Codeword ( 码 字 )，78 
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Collective layer ( 汇聚 层 )，653 
Collector ( 集 电极 )，148 
Color gamut ( 色 阶 )，125 
Color palette ( 调 色 板 )，118 
Color printing (彩色 打印 )，124-127 
COLOSSUS (计算 机 名 )，14，16-17 
COMA Jl Cache only memory access 
COMA multiprocessor (COMA 多 处 理 机 )，614 
Combinational circuit (组 合 电路 )，159-163 
Committed page ( 提交 页 )，490 
Commodity off-the-shelf cluster ( 商用 现货 供应 集 
群 )，37 
Communicator ( 通信 者 )，637 
Compact disc-read only memory ( 只 读 内 存 )，101- 
103 
Comparator ( 比较 器 )，162-163 
Comparison instructions ( 比较 指令 )，390-392 
Comparison of instruction sets ( 指令 集 比 较 )，402 
Complier ( 编译 器 )，7，518 
Completeness property ( 完备 性 )，153 
Complex instruction set computer ( 复杂 指令 集 计 算 
机 )，62 
Compute unified device architecture (CUDA 通用 并 
行 计算 架构 )，583 
Computer ( 计算 机 ) 
data parallel ( 数据 层 并 行 ~ )，70-72 
disposable ( 一 次 性 计算 机 ~ ), 31-33 
game ( ~ 游戏 )，35-36 
Computer archietcture ( 计算 机 体系 结构 )，8 
milestones ( ~ 里 程 碑 )，13-28 
Computer center ( 计算 中 心 )，23 
Computer zoo ( 计算 机 家 族 )，28-39 
Condition code (条 件 码 )，350 
Condition code register ( 条 件 码 寄存 器 )，699 
Condition variable ( 条件 变量 )，506 
Conditional branch instructions ( 条 件 分 支 指令 )， 
390-392 
Conditional execution ( 条 件 执行 )，427 
Conditional jump (条 件 跳 转 )，710 
Consistency ( 一致 性 ) 
cache (缓存 ~ )，599 
processor ( 处 理 器 ~ ), 595-596 
release ( 发 布 ~ )，597-598 
sequential ( 连续 ~ ), 594-595 
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strict( 严格 ~ ), 594 
weak ( 55 ~ ), 596-597, 597-598 
Consistency model ( 一 致 性 模型 )，594 
Constant pool ( 常量 池 ), 260 
Consumer ( 消费 者 ), 474 
Control Data Corporation ( 控制 数据 公司 (CDC ))，21 
Control signal ( 控制 信号 )，249 
Control store ( 控制 存储 器 )，61，253 
Controller ( 控制 器 )，109 
Conversion between radices ( 进 制 转换 )，673-675 
Coprocessor ( 协 处 理 器 )，574-586 
Copy on write ( 写 时 拷贝 )，489 
Core (4%), 25, 568 
Core 2 duo ( Core 2 双核 处 理 器 ), 42 
Core dump ( 主 存 信息 转 储 )，10 
Core i7 (MÆ i7), 
addressing ( ~ ht ), 382-384 
addressing modes ( ~ 寻 址 模式 )，382-384 
banking ( ~ 存储 体 )，328 
branch predictor ( ~ 分支 预测 器 ), 326 
data type ( ~ 数据 类 型 )，360 
hyperthreading ( ~ 超 线程 技术 )，564-568 
introduction ( ~ 简介 )，35-47 
instruction formats ( ~ 指令 格式 )，367-368 
instructions ( ~ 指令 )，397-400 
ISA level ( ~ 指令 系统 层 )，351-353 
memory model ( ~ 内 存 模型 )，347-348 
microarchitecture ( ~ 微 体系 结构 )，323-329 
multiprocessor ( ~ 多 处 理 器 )，569 
photo of the die ( ~ 模具 照片 )，43 
pinout ( ~ 5[ fl), 204-208 
pipelining ( ~ 流水线 ), 206-208 
reorder buffer ( ~ 重 排序 缓冲 区 )，327 
retirement unit ( ~ 退出 单元 )，328 
scheduler ( ~ 调度 器 )，327 
virtual memory ( ~ 虚拟 内 存 )，455-460 
virtualization ( ~ 硬件 虚拟 化 )，464 
CoreConnect ( 核心 连接 )，572 
Coroutine ( 协同 程序 )，410-413 
Cortex A9 ( Cortex A9 处 理 器 )，329-334 
COTS Jl Commodity Off The Shelf 
Counter register ( 计数 寄存 器 ), 697 
COW Ji Cluster of workstations 
CP/M (一 种 操作 系统 CPU), 24 
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CPU Jl Central processing unit 
CPU Chip (CPU its), 185-187 
CPU organization ( CPU 组 织 结构 )，56 
Cray, Seymour (A%, CDC 6600 的 设计 者 )，21 
CRAY-1 (向 量 超级 计算 机 ), 14 
CRC 见 Cyclic Redundancy Check 
CRC H, Cyclic redundancy code 
Critical section ( 临界 区 ), 509 
Crossbar switch ( 交叉 开关 ), 604 
Crosspoint ( 交叉 点 )，604 
CRT JL Cathode ray tube 
Cryptography ( 密码 ), 
Public-key ( 2] ~ ), 585 
Symmetric (对 称 ~ ), 585 
Cryptoprocessor ( 加 密 处 理 器 ), 585-586 
Cube network ( 立方 体 网 络 )，620 
CUDA Jl Compute Unified Device Architecture 
Cycle stealing ( 周期 窃取 )，110，397 
Cyclic redundancy check ( 循环 元 余 检测 ), 226 
Cylinder，disk( 柱 面 磁盘 )，89 


D 


D latch ( D 锁 存 器 )，171-172 

Daisy chaining ( 串 行 链 式 仲裁 )，196 

Data Cache, OMAP4430 ( 数据 高 速 缓存 ), 
OMAP 4430, 331 

Date center (数据 中 心 )，37 

Data movement instructions ( 数据 移动 指令 )，386- 
387 

Data parallel computer ( 数据 层 并 行 计算 机 )，70-72 

Data path ( 数据 通路 )，6，56，244-250 
Mic-1 ( 最 基本 的 微 体系 结构 层 ~ )，254 
Mic-2( 带 预 取 的 微 体系 结构 层 ~ )，292 
Mic-3( 带 流水 线 的 微 体 系 结构 层 ~ )，296 
Mic-4( 带 七 段 流水 的 微 体系 结构 层 ~ ), 301 

Data path cycle ( 数据 通路 周期 )，58 

Data path timing ( 数据 通路 时 序 )，247-249 

Data register ( 数据 寄存 器 )，697 

DATA section ( 数据 区 )，717 

Data segment ( 数据 段 )，709 

Data type ( 数据 类 型 )，359-360 
nonnumeric ( 非 数值 ~ ), 358-359 
numeric (数值 ~ ), 358-359 
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Data types (数据 类 型 )，358-362 
ARM (ARM 机 器 的 ~ )，360 
ATmegal68 ( ATmegal68 的 ~ )，361-362 
Core i7 ( Core i7 的 ~ ), 360 
DDR Ji, Double Data Rate memory 
De Morgan’s law (摩根 定律 )，156 
DEC J Digital Equipment Corporation 
DEC Alpha (DEC 公司 生产 的 处 理 器 型 号 )，14，26 
DEC PDP-1 (DEC 公司 生产 的 计算 机 型 号 )，14，20 
DEC PDP-11 (DEC 公司 生产 的 计算 机 型 号 )，14 
DEC PDP-8 ( DEC 公司 生产 的 计算 机 型 号 )，14，20 
DEC VAX (DEC 公司 生产 的 计算 机 型 号 )，14，61 
Decimal number ( 十进制 数 )，718 
Decoder ( 译 码 器 )，161-162 
Decoding unit ( 译 码 单元 )，300 
Degree, node (节点 度 )，618 
Delay slot ( 延 时 槽 )，311 
Demand paging ( RIIT ), 443-446, 445 
Demultiplexer ( 多 路 输出 选择 器 )，161 
Denormalized number ( 非 规 格 化 数 )，687 
Dependence ( FH), 297, 318 
Design principles ( 设计 原则 ), 63-65 
Design determination ( 设计 目标 )，580 
Destination index ( 目标 变 址 )，698 
Destination operand ( 目标 操作 数 )，701 
Device level ( 设备 层 )，5 
Device register bus ( 设备 寄存 器 总 线 )，573 
Diameter, network ( 网 络 直径 )，618 
Dibit encoding ( 双 位 编码 )，129 
Difference engine ( 微分 机 )，15 
Digital camera ( 数码 相机 )，135-137 
Digital Equipment Corporation ( 数字 设备 公司 
(DEC ))，14，19-20 
Digit logic circuits ( 数字 逻辑 电路 )，158-169 
Digit logic level ( 数字 逻辑 层 )，5$ 
buses (总 线 ~ ), 185-201, 214-232 
circuits ( 电路 ~ ), 158-169 
CPU chips (CPU 芯片 ~ ), 201-214 
gates ( 门 ~ ), 147-157 
VO interfacing (输入 /输出 接口 连接 ~ ), 232-235 
memory ( 内 存 ~ ), 169-185 
PCI bus (PCI 总 线 ~ ), 215-223 
PCI express bus ( PCI Express 总 线 ~ ), 223-228 
Digital subscriber line ( 数字 用 户 线 )，129-132，130 
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Digital subscriber line access multiplexer ( 数字 用 
户 线 访 问 多 路 服用 器 )，132 
Digital versatile disk ( 数字 多 用 途 盘 )，106-108 
Digital video disk ( 数字 视盘 )，106-108 
Dimensionality ( 维 数 )，619 
DIMM Jl Dual inline memory module 
DIP Ji, Dual inline package 
Direct addressing ( 直接 寻 址 ), 372, 702 
Direct memory access ( 直接 存储 访问 )，109，396 
Direct-mapped cache ( 直接 映射 的 高 速 缓存 )，306 
Direction flag (方向 标记 ), 704 
Directory ( 目录 ), 471 
Directory management instructions ( 目录 管理 指 
&), 471 
Directory-based multiprocessor ( 基于 目录 的 多 处 
理 器 系统 )，608 
Disambiguation ( 消 歧 ), 329 
Disk (Æ), 
ATAPI ( AT 附件 包 接口 ~ ), 92 
CD-ROM (只 读 光 ~ ), 101-103 
DVD (数字 多 用 途 ~ )，106-108 
IDE (IDE 接口 ~ ), 91-92 
magnetic (Ré ~ ), 87-97 
optical (SE ~ ), 99-108 
RAID ( 廉价 磁盘 的 元 余 阵 列 ~ ), 94-97 
SCSI ( 小 型 计算 机 系统 接口 ~ )，92-94 
SSD (固态 硬 ~ )，97-99 
Winchester ( 温 彻 斯 特 磁 ~ )，111 
Disk controller ( 磁盘 控制 器 )，90 
Diskette ( 磁 碟 )，89 
Disposable computer (一 次 性 计算 机 )，31-33 
Distributed memory system ( 分 布 式 内 存 系统 )，587 
Distributed shared memory ( 分 布 式 共 享 内 存 )， 
589-591, 640-642 
DLL Ji, Dynamic Link Library 
DMA Jl Direct Memory Access 
Dot (点 ), 716 
Dots per inch ( 每 英寸 的 点 数 )，126 
Double data rate RAM ( 双 倍 速率 随机 访问 存储 
器 )，181 
Double indirect block ( 两 次 间接 块 )，497 
Double integer ( 双 精 度 整 数 )，697 
Double torus, 620 
Double-precision number ( 双 精 度数 )，358 


DPI Ji, Dots per inch 

DRAM Jl Dynamic RAM 

DSL Jil, Digital Subscriber Line 

DSLAM Jl Digital Subscriber Line Access 
Multiplexer 

DSM 见 Distributed memory system 

Dual (X18), 155 

Dual inline memory module ( 双 列 直 插 存储 器 模 
组 )，85 

Dual inline package ( 双 列 直 插 封装 )，158 

DVD Jl Digital versatile disk 

Dyadic operations ( 双 操 作 数 指令 )，387-388 

Dye sublimation printer，127 

Dye-based ink ( 染料 墨水 )，126 

Dynamic branch prediction ( 动态 分 支 预测 )，312-315 

Dynamic link library ( 动态 链接 库 ), 547 

Dynamic linking ( 动态 链接 ), 545-549 
MULTICS ( MULTICS ~ ), 545-547 
UNIX (UNIX ~ ), 549 
Windows ( Windows ~ ), 547-549 

Dynamic RAM (动态 RAM), 181 

Dynamic voltage scaling ( 动态 压 扩 ), 209 
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Eckert, J. Presper ( 人 名 ，ENIAC 计算 机 的 设计 者 
=), 17 

ECL Jil Emitter Coupled Logic 

Edge-triggered flip-flop (边沿 触发 、 电 平 触发 )， 
172 

EDO Jl, Extended Data Output memory 

EDSAC ( 第 一 台 可 存储 程序 的 计算 机 )，14 

EDVAC, 17 

EEPROM Jl Electrically Erasable PROM 

Effective address (有效 地 址 ), 704 

Egress processing ( 输出 处 理 )，580 

EHCI Jil Enhanced Host Controller Interface 

EIDE Ji, Extended IDE 

EISA bus 见 Extended ISA bus 

Electrically erasable PROM ( 电 可 擦 除 的 PROM ), 
182-184 

Electronic discrete variable automatic computer ( 电 
子 离散 变量 自动 计算 机 )，17 


Electronic numerical integrator and computer ( 电子 
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数字 积分 计算 机 )，17 
Emitter ( 射 极 )，148 
Emitter-coupled logic ( 射 极 耦合 逻辑 )，150 
Emulation ( 仿真 )，22 
Encoding, 8b/10b ( 8b/10b 编码 ), 226 
Endian memory ( 字 节 编 址 方式 )， 
big (大 端 派 内 存 ~ )，76-78 
little (小 端 派 内 存 ~ )，76-78 
Enhanced host controller interface ( 增强 的 主机 控 
制 器 接口 )，231 
ENIAC ( 电子 数字 综合 器 和 计算 机 ， 世 界 上 一 台 
电子 计算 机 )，14，17 
ENIGMA ( "二战 ”中 德军 使 用 的 加 密 设 备 )，16 
Entry point ( 入口 点 )，542 
EPIC Jil Explicitly Parallel Instruction Computing 
EPROM Jl Erasable PROM 
EPT Jl Extend Page Table 
Erasable PROM ( 可 擦 除 的 PROM ), 182 
Error-correcting code ( 纠 错 码 ), 78-82 
Escape code ( 扩展 码 )，367 
Estridge, Philip (A4%, IBM PC 的 设计 者 )，24 
Ethernet (LAK), 575 
Event (事件 )，509 
Evolution of multilevel machines ( 多 级 别 计算 机 的 
演化 )，8-13 
Example computer families ( 系列 计算 机 举例 )，39 
Example programs, 8088 (8088 程序 举例 ), 726-745 
Excess notation ( 余数 表示 法 )，676 
Executable binary file ( 可 执行 二 进 制 文件 )，716 
Executable binary program ( 可 执行 二 进 制 程序 )， 
518, 537 
Executive, NTOS ( NTOS 的 执行 体 )，487 
Expanding opcode ( 操作 码 扩展 ), 365-367 
Explicit linking ( 显 式 链接 )，548 
Explicitly parallel instruction computing ( 显 式 并 行 
指令 计算 )，423 
Exponent ( 指数 )，682 
Extended data output ( 扩展 数据 输出 )，181 
Extended IDE ( disk (扩展 的 IDE 磁盘 )，91 
Extended ISA (bus ( 扩展 的 ISA 总 线 )，111 
Extended page table ( 扩展 页 表 )，464 
External fragmentation ( 外 部 碎片 )，453 
External reference ( 外 部 引用 ), 539 
External symbol ( 外 部 符号 )，542 
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Extra segment ( 附加 段 )，709 
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Fabric layer ( 构造 层 ), 653 

False sharing ( 共享 失败 )，641 

Fanout ( iH ), 618 

Far call ( 远程 呼叫 )，710 

Far jump, 8088 ( 8088 长 跳 转 ), 709 

Fast page mode memory (快速 页 式 存储 器 )，181 

FAT Jl. File Allocation Table 

Fat tree ( 胖 树 结构 )，620 

Fermi GPU (NVIDIA 公 司 生产 的 一 种 GPU)， 
70-71, 582-585 

Fetch-decode-execute cycle ( 取 指 一 译 码 一 执行 周 
期 )，58，244 

Field extraction ( 字段 抽取 ), 580 

Field-programmable gate array ( 现场 可 编程 门 阵 
列 )，25，183-185，578 

FIFO algorithm Ml First-In-First-Out 算法 

Fifth-generation computer ( 第 五 代 计 算 机 ), 26-28 

Fifth-generation project, Japanese ( 日 本 的 第 五 代 
计算 机 计划 )，26 

File (文件 )，465-467 

File allocation table ( 文件 分 配 表 ), 498 

File descriptor ( 文件 描述 符 ), 492, 713 

File index ( 文件 索引 表 )，468 

Filter ( 过 滤器 )，494 

Fine-grained multith reading ( 细 粒 度 多 线程 )，562 

Finite state machine (有 限 状态 机 )，290，314 

Finite-precision number ( 有 限 精度 数 )，669-671 

Firewall ( 防火 墙 )，576 

First fit algorithm ( 最 先 匹 配 算法 )，454 

First pass, assembler ( 第 一 趟 汇编 器 )，716 

First-generation computers ( 第 一 代 计算 机 )，16-19 

First-in first-out algorithm ( 先进 先 出 算法 )，447 

Flags register ( 标志 寄存 器 )，350，699 

Flash memory ( 闪存 )，183 

Flat panel display (平板 显示 器 ), 115-117 

Flip-hop《〈 触 发 器 )，172-174 

Floating-point number ( 浮 点 数 )，681-688 

Floppy disk ( 软盘 )，89 

Flow control ( 流 控制 )，227 

Flow of control ( 控制 流 ), 403-417, 404-417 
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branches (转移 ~ ), 405-406 
coroutines (协同 程序 ~ ), 410-413 
interrupts ( 中 断 ~ ), 414-417 
procedures (过程 ~ ), 406-410 
sequential ( 顺序 ~ )，405-406 
traps (陷阱 ~ ), 413 
Flynn’s taxonomy ( Flynn 分 类 法 )，591-493 
Formal parameter, marco ( 形式 参数 ， 宏 )，526 
Forrester, Jay ( 人 名 ， 磁 芯 存 储 器 的 发 明 者 )，19 
FORTRAN (一 种 高 级 程序 语言 )，10，392 
FORTRAN monitor system ( FORTRAN 监控 系统 )，10 
Forward reference problem ( 向 前 引用 问题 )，529 
Fourth-generation computers ( 第 四 代 计 算 机 )，23- 
26 
FPGA Jil, Field Programmable Gate Array 
FPM Jl Fast Page Mode memory 
Fraction ( 尾数 )，682 
Fragmentation (碎片 )，448-449 
external ( 外 部 ~ ), 453 
internal ( 内 部 ~ )，448 
Fragmentation and reassembly ( 分 段 和 重组 )，581 
Frame(〈 帧 )，101 
Local variable ( 局 部 变量 ~ ), 258-260 
Frame pointer ( 段 指针 )，353 
Free list (自由 空间 列表 ), 469 
Free page (空闲 页 面 )，490 
Frequency modulation ( 调频 )，128 
Frequency shift keying ( 频 移 键 控 法 )，128 
FSM Jil Finite state machine 
Full adder ( 全 加 器 ), 165-166 
Full handshake ( 全 握手 )，195 
Full interconnect ( 全 连接 )，620 
Full resource sharing ( 完全 共享 )，566 
Full-duplex line ( 全 双 工 线路 )，129 
Function ( 函数 ), 392 


G 


Game computer ( 游戏 计算 机 ), 35-36 
Game controller ( 游戏 控制 器 ), 120-122 
Gamut, color ( ft), 125 

Gate (TJ), 5, 148-150 

Gate delay ( 门 延 迟 ), 159 

GDT Ji, Global Descriptor Table 
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General registers ( 通用 寄存 器 )，695-697 

General-purpose CPU (通用 CPU ), 584 

Ghosting ( 镜像 )，114 

Global descriptor table ( 全 局 描述 符 表 )，455 

Global label ( 全 局 标签 )，717 

Goldstine, Herman (AK, IAS 计算 机 的 设计 者 ) 18 

Google cluster ( Google 集群 )，632-636 

GPGPU Jl General Purpose GPU 

GPU Jl Graphics processing unit 

Graphical user interface ( 图 形 用 户 接口 )，24，485 

Graphics processing unit ( 图 形 处 理 单 元 )，70-72， 
582-585 

Graphics processor ( 图 形 处 理 器 ), 582-585 

Green book ( 绿 皮 书 ), 103 

Grid (网 格 )，620 

Grid computing ( 网 格 计算 )，652-655 

GridPad (第 一 款 平板 计算 机 )，14 

Guest operating system ( 用 户 操 作 系 统 )，464 

GUI Jil, Graphical user interface 


H 


H register ( H 寄存 器 ), 245-246 
Half adder ( 半 加 器 ), 164-165 
Half-duplex line ( 半 双 工 线路 )，129 
Halftone screen frequency (屏幕 分 辨 率 )，124 
Halftoning ( 调 色 板 )，124 
Hamming, Richard ( 任命 ， 海 明码 的 发 明 者 )，30 
Hamming distance ( 海 明 码 距 )，78 
Handle ( 句柄 )，488 
Hard olisk ( 硬盘 )，87-97 
Hardware ( 硬件 )，8 

equivalence with software ( 和 软件 等 效 的 ~ )，8 
Hardware abstraction layer ( 人 硬件 抽象 层 )，486 
Hardware DSM ( 硬件 实现 的 分 布 式 共 享 内 存 )， 

607 
Hardware virtualization ( 硬件 虚拟 化 )，463-464 
Harvard architecture ( 哈佛 体系 结构 )，84 
Harvard Mark 工 〈 哈佛 的 马克 I 型 计算 机 )，16 
Hash coding ( 哈 希 编码 )，536 
Hashing ( 散 列 法 )，536 
Hawkins, Jeff ( 人 名 ,完善 了 PDA 接口 )，27 
Hazard ( 冒险 )，297 
Headend ( 数据 转发 器 )，132 
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Header, PCI packet (PCI 包 的 报头 )，225 
Header management ( 报头 管理 )，581 
Headless workstation ( 无 领导 者 的 工作 站 )，631 
Hello world example ( Hello world #2 FF ay fi ), 
8088, 726 
Heterogeneous multiprocessor ( 异 构 多 处 理 器 ), 
570-574 
Hexadecimal ( 十 六 进 制 )，671 
Hexadecimal number ( 十 六 进 制 数 )，718 
High Sierra (CD-ROM 的 早期 标准 )，103 
High-level language ( 高 级 语言 )，7 
History ( 历史 ), 
1642 一 1945，13-16 
1945—1955 (1945 ~ 1955 ~ ), 16-19 
1955—1965 (1955-1965 ~ ), 19-21 
1965—1980 ( 1965-1980 ~ ), 21-23 
ARM ( ARM 架构 ~ ), 45-47 
Intel (Intel 公司 ~ ), 39-45 
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14 

IAS machine (IAS #L), 18 

IBM 1401 (IBM 生产 的 计算 机 型 号 )，14，20， 
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strict consistency ( 严格 一 致 性 ~ ), 594 
weak consistency ( 弱 一 致 性 ~ ), 596-597 
Memory-mapped I/O ( 内 存 映像 输入 /输出 ), 234 
Mesh network ( 网 格 型 网 络 )，620 
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MPEG-2 Ji, Motion picture experts group, 571 

MPI 见 Message Passing Interface 

MPP 见 Massively Parallel Processor 
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MS-DOS (微软 公司 的 DOS 操作 系统 )，25 
Multicomputer ( 多 计算 机 ), 73, 587-591, 616- 
652, 621-631 é 
BlueGene/L (IBM 公 司 生产 的 蓝 色 基因 计算 
机 ~ ), 622-626 
Google cluster ( Google 集群 ~ ), 632-636 
MPP ( 大 规模 并 行 处 理 ~ ), 593 
Red Storm ( Intel 生产 的 并 行 计算 机 ~ ), 626-631 
Multicomputer performance ( 多 计算 机 性 能 )，650- 
652 
Multicomputer software ( 多 计算 机 软件 ), 636-639, 
636-646 
MULTICS Ji, MULTiplexed Information and Computing 
Service 
Multilevel machine ( 多 层 计算 机 ), 5-13 
Multilevel machine,evolution( 多 层 计算 机 的 进展 )， 
8-13 
Multimedia extensions ( 多 媒体 扩展 指令 ), 41 
Multiple instruction stream multiple data stream 
computer ( 多 指令 流 多 数据 流 )，591-592 
Multiplexed bus ( 多 路 复 用 总 线 )，191 
Multiplexed information and computing service (多 
路 复 用 信息 和 计算 ), 454-455, 545-547 
Multiplexer ( 多 路 选择 器 )，159-161 
Multiprocesssor ( 多 人 处理 机 ), 72-73, 586-616 
COMA (COMA ~ ), 614-616 
Corei7 (Corei7 ~ ), 569 
heterogeneous ( 非 对 称 ~ ), 570-574 
NUMA (NUMA ~ ), 606-610 
symmetric ( 对 称 ~ ), 587, 598-606 
vs.multicomputer ( ~ 与 多 计算 机 的 比较 )，586- 
593 
Multiprogramming ( 多 道 程序 )，22 
Multisession CD-ROM ( 可 多 次 写 入 的 CD-ROM), 
105 
Multistage switching network ( 多 级 交换 网 络 )，604- 
606 
Multitouch screen ( 多 点 触 控 屏幕 )，114 
Mutex ( 互 斥 锁 )，505 
Mutual capacitance ( 互 电 容 型 )，114 
Myhrvold, Nathan ( 人 名 ， 微 软 的 高 级 经 理 )，29 


N 
N-way set-associative cache (N 路 组 相 联 高 速 组 
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#), 308-310 

NaN Jil. Not A Number 

Nathan’s law ( Nathan 定律 )，29 

NC-NUMA Jl NonCoherent NUMA multiprocessors 

Near call ( 短 调用 )，710 

Near jump ( 短 跳 转 ), 8088, 709 

Negated signal ( 失效 信号 ), 178 

Negative binary number ( 负 二 进 制 数 )，675-677 

Negative logic ( 负 逻 辑 )，157 

NEON (ARM 公 扩 支持 的 一 种 计算 引擎 )，331 

Network ( 网 络 )， 
Ethernet (LAK ~ ), 575 
local-area ( 局 域 ~ ), 575 
ring (FPR ~ ), 569 
store-and-forward (存储 转发 ~ ), 575 
wide-area (广域网 )，575 

Network interface device ( 网 络 接口 设备 )，131 

Network of workstations ( 工作 站 网 络 )，593 

Network processor ( 网 络 处 理 器 ), 574-582, 577- 
579, 578 

Networking, introduction ( 网 络 简介 ), 575-577 

Newton, 14, 45 

Nibble ( 半 字 节 ), 399 

NID Jl Network Interface Device 

No cache NUMA (无 缓存 的 非 均匀 存储 器 访问 )， 
606 

No remote memory access computer ( 非 远 程 内 存 
访问 计算 机 ), 593 

Nonblocking message passing ( 无 阻塞 消息 传递 )， 
637 

Nonblocking network ( 无 阻塞 的 网 络 )，604-606 

Noninverting buffer ( 非 反 向 缓冲 器 )，177 

Nonnumeric data type ( 非 数值 数据 类 型 )， 
359-360 

Nonuniform memory access ( 非 一 致 性 内 存 访问 ), 
606-610 

Nonuniform memory access computer ( 非 一 致 性 内 
存 访问 计算 机 )，592 

Nonvolatile memory ( 非 易 失 性 存储 器 )，182-183 

NORMA Ji NO Remote Memory Access Computer 

Normalized float-point number ( 规格 化 浮 点 数 )， 
684 

Normative information, in standard ( 标准 化 信息 ), 
346 


Not a number ( 非 数 字 ), 688 

Notation, Mic-1 ( Mic-1 7-5 ), 267-271 

NOW Jil. Network Of Workstations 

Noyce, Robert (Intel 公司 创始 人 ), 21 

NT file System( 专门 为 NT 设计 的 新 的 文件 系统 )， 
498 

NTFS Jil NT File System 

NTOS execative (NTOS 执行 体 )，487 

NUMA Jil. NonUniform Memory Access 
multiprocessor 

NUMA multiprocessor (NUMA 多 处 理 机 ), 
606-610 

Numeric data type ( 数值 型 数据 类 型 )，358-359 

Nvidia Fermi GPU (Nvidia 公司 生产 的 Fermi 系 
列 GPU ), 582-585 

Nvidia Tegra ( Nvidia 公司 生产 的 芯片 )，46 


O 


Object file ( 目标 文件 )，716 
Object module ( 目标 模块 )，541-542 
Object program ( 目标 程序 )，518 
OCP-IP Ji, Open Core Protocol-International 
Partnership 
Octal (八进制 )，671 
Octal number ( 八进制 数 )，718 
Octet ( 八 位 字 节 )，75，347 
OGSA Jil, Open Grid Services Architecture 
OHCI J Open Host Controller Interface 
OLED Jl Organic Light Emitting Diode 
Olsen, Kenneth (DEC 公司 的 创始 人 ), 19 
OMAP4430 (一 种 CPU 型 号 )， 
addressing ( ~ 寻 址 )，384 
bi-endianness ( ~ 双 字 节 序 模式 )，354 
data cache ( ~ 数据 缓存 )，331 
data types ( ~ 数据 类 型 )，361 
instruction formats ( ~ 指令 格式 )，368-370 
instruction issue unit ( ~ 指令 发 出 单元 )，330 
instructions ( ~ 指令 )，400-402 
internal organization ( ~ 内 部 组 织 结构 )，209 
introduction ( ~ 简介 )，45-47 
ISA level ( ~ 指令 系统 层 )，354-356 
microarchitecture ( ~ Core i7 微 体 系 结构 )， 
329-334 
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pinout ( ~ 引 脚 )，211 

pipeline ( ~ 流水线 )，331-334 

store buffer ( ~ 存储 缓存 )，331 

virtual memory ( ~ 虚拟 内 存 )，460-462 
Omega network ( Omega 网 络 ), 604-606 
Omnibus, PDP-8 ( PDP-8 计算 机 的 总 线 )，20 
On-chip multithreading ( 片上 多 线程 )，562-568 
On-chip parallelism ( 片上 并 行 )，554-574 
One’ s complement number (二进制 反 码 ), 675 
Opcode ( 操作 码 )，244 
Open collector ( 和 集 电极 开路 )，189 


Open Core protocol-international partnership (开放 


内 核 协议 国际 组 织 )，574 


Open grid services architecture ( 开放 网 格 服务 体 


系 结构 )，654 


Open host controller interface ( 开放 主机 控制 器 接 


H), 231 
Operand stack ( 操作 数 栈 ), 259-260 
Operating system ( 操作 系统 )，437 
CP/M (CP/M ~ ), 24 
history ( ~ JAS), 9-11 
OS/2 (OS/2 ~ ), 25 
timesharing (分 时 ~ ), 11 
UNIX ( UNIX ~ ), 482-485, 488-489, 
492-498, 503-506 
Windows ( Windows ~ ), 490-492 
Windows 7 ( Windows7 ~ ), 485-488, 
498-503, 506-509 


Operating system machine level 操作 系统 机 器 层 )， 


7，437-510 
Operating system macro ( 操作 系统 宏 )，11 
Operation code ( 操作 码 )，244 
Optical discs ( 光盘 )，99-108 
Orange Book ( 3% ), 105 
Orca (一 种 传统 的 编程 语言 )，644-646 


Organic light emitting diode ( 有 机 发 光 二 极 管 )，117 


OS/2 (IBM 公司 推出 的 操作 系统 )，25 
Osborne-1 ( 第 一 台 便 携 式 PC PL), 14 
Out-of-order execution ( 乱 序 执行 )，315-320 
Overlay ( 覆盖 ), 439 


P 


Packet ( 42H ), 575-608 


PCI (PCI ~ ), 225 
Packet classification ( 分 组 分 类 ), 580 
Packet processing ( 分 组 处 理 )，580-581 
Packet processing engine, 579 
Packet switching ( 分 组 交换 ), 575 
Page (1), 440 
Page directory (页 目录 )，457 
Page fault ( 缺 页 )，443 
Page frame ( 页 帧 )，442 
Page scanner ( 页 面 扫描 冉 )，607 
Page table ( HÆ ), 440 
Page-replacement policy ( 页 面 蔡 换 策略 )， 
446-448 
Paging ( 内 存 分 页 )，439-452 
implementation ( ~ 的 实现 )，441-443 
Paging algorithm ( 页 替换 算法 )，446-448 
FIFO (FIFO ~ ), 447 
LRU (LRU ~ ), 446 
Palm PDA (掌上 电脑 )，27 
Parallel computer ( 并 行 计算 机 ), 
coprocessors ( ~ 协 处 理 器 )，574-586 
grid ( ~ 网 格 并 行 计算 机 )，652-655 
multicomputer ( ~ 多 计算 机 )，616-652 
multiprocessor ( ~ 多 处 理 机 ), 586-61 
on-chip parallelism ( ~ 片 内 并 行 )，554-574 
performance ( ~ 性 能 )，646-652 
taxonomy ( ~ 分 类 )，591-593 
Parallel input/output ( 并 行 输入 /输出 )，232 
Parallel processing ( 并 行 处 理 )，471-480 
Parallel virtual machine ( 并 行 虚拟 机 )，637 
Parallelism ( 并 行 )，65-69 
instruction-level ( 指令 级 ~ ), 555-561 
on-chip (HP ~ ), 526-574 
Parameter, macro ( Z2% ), 526-537 
Parent process ( KHF ), 503 
Parity bit ( 校 验 位 )，79 
Parity flag ( 校 验 标志 ), 708 
Partial address decoding ( 部 分 地 址 译 码 )，235 
Partitioned resource sharing ( 部 分 资源 共享 )，566 
Pascal, Blaise〈《 人 名 ， 法 国 科 学 家 )，13 
Pass one, assembler ( 单 次 扫描 汇编 器 )，530-534 
Pass two, assembler ( 两 次 扫描 汇编 器 )，534-536 
Passive matrix display ( 被 动 矩阵 显示 器 )，117 
Path ( 路径 )，494 
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Path length (路 径 长 度 )，283-291 
reducing (减少 ~ ), 282-291 
Path selection ( 路 径 选 择 )，580 
Payload, PCI packet ( PCI 分 组 的 有 效 载荷 )，225 
PC Ji Personal Computer 
PCI Bus 见 Peripheral Component Interconnect Bus 
PCI Express ( PCI Express ), 223-228 
architecture ( ~ 体系 结构 ), 224-225 
PCI Express bus ( PCI Express 2%), 111-112 
PCI Express, protocol stack( PCI Express， 协 议 栈 ), 
225-228 
PCIe ‘i, PCI Express 
PCle bus Jil, PCI Express bus 
PDA Jl Personal Digital Assistant 
PDP-1 (DEC 公司 生产 的 小 型 机 )，14，20 
PDP-11 (DEC 公司 生产 的 小 型 机 )，41 
PDP-8 (DEC 公司 生产 的 小 型 机 ), 14, 20 
Pentium (Intel 生产 的 CPU 芯片 系列 )，25，41 
Pentium 4 (Intel 生产 的 CPU 芯片 )，4，44 
Perfect shuffle ( 全 混 洗 )，605 
Performance ( 计算 机 性 能 ), 
hardware metrics ( 硬件 性 能 指标 )，647-648 
improving ( 提高 性 能 )，650-652 
improving network ( 网 络 性 能 提高 )，582 
software metrics ( 软件 性 能 指标 )，648-650 
Performance metrics ( 性 能 指标 ), 647-650 
hardware ( 硬件 性 能 指标 )，647-648 
software ( 软件 性 能 指标 )，648-650 
Performance of parallel computers ( 并 行 计算 机 的 
性 能 )，646-652 
Peripheral bus ( 外 围 设备 总 线 )，573 
Peripheral component interconnect, bus ( 外 部 设备 
部 件 互 连 总 线 )，111-112，215-218 
arbitration ( ~ 仲裁 )，219-220 
operation ( ~ 操作 )，218-219 
signals ( ~ 信号 )，220-222 
transactions ( ~ 事务 )，222-223 
Perpendicular recording ( 垂直 记录 )，88 
Personal computer (个 人 计算 机 )，23-25，36 
Personal digital assistant ( 个 人 数字 助理 ), 27 
Pervasive computing ( 普 适 计算 )，28 
PGA i, Pin grid array 
Phase modulation ( 调 相 )，128 
Physical address space ( 物理 地 址 空间 ), 440 


Physical layer, PCI Express( PCI 快速 总 线 物理 层 )， 
226 

Pigment-based ink (色素 墨水 )，126 

Pin grid array ( 管 脚 阵列 )，158 

Pinout ( 管 脚 信号 )，185 

PIO Jil, Parallel Input/Output 

Pipe (JŠ ), 504 

Pipeline ( 指令 流水 )，65-67，293 
Mic-3 ( Mic-3 的 ~ ), 298-300 
Mic-4 ( Mic-4 的 ~ ), 300-303 
OMAP (OMAP 的 ~ ), 331-334 
Pentium (Pentium 的 ~ ), 68 
seven-stage ( 七 段 的 ~ ), 300-303 

Pipeline stall ( 流水 线 暂停 )，298 

Pipelining, Core i7 memory ( Core i7 内 存 的 流水 线 
操作 )，206-208 

Pit ( HIK. ), 100 

Pixel ( 像素 )，117 

Plain old telephone service ( 简易 老式 电话 业务 )， 
130 

Play Station ( 索尼 的 一 款 游戏 主机 平台 ), 3, 35 

Pointer ( 指针 )，373 

Pointer register ( 指针 寄存 器 )，698-699 

Poison bit (抑制 位 )，322 

Polish notation ( 波兰 表达 式 )，376-379 

Portable Operation System-Ix ( 可 移植 的 UNIX 操 
WERDE), 483 

Position independent code ( 位 置 独立 的 代码 )， 
545 

Positive logic ( IEi### ), 157 

POSIX 见 Portable operation system-ix 

Postfix (后 级 )，376 

POTS Jil Plain old telephone service 

Power gating ( 功率 门 控 ), 209 

PPE JL Protocol Processing Engine 

Preamble ( 前导 区 ), 87 

Precise interrupt ( 精确 中 断 )，318 

Predicted instruction ( 断言 指令 )，370 

Predication ( 预测 )，426-428 

Prefetch buffer ( 预 取 缓冲 区 ), 65 

Prefetching ( 预 取 技术 )，651 

Prefix ( HU), 400 

Prefix byte (RFT ), 278-367 

Present/absent bit ( 存在 / 缺 页 位 )，442 
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Print engine ( 打印 引擎 )，123 
Printer (打印 机 )，122-127，124-127 
bubblejet ( 泡沫 喷 墨 ~ ), 126 
CMYK ( 四 色彩 印 ~ ), 125 
dye-sublimation ( 升华 染料 ~ ), 127 
laser ( 激光 ~ )，122-124 
solid ink ( 固体 墨水 ~ ), 126 
specialty (特殊 用 途 ~ ), 126-127 
wax (热量 式 ~ )，127 
Procedure( 过 程 )，392，406-410 
Procedure call instructions ( 过 程 调用 指令 )， 
392-393 
Procedure epilog ( 过 程 结束 代码 )，409 
Procedure prolog ( 过 程 启动 代码 ), 409 
Process creation ( 进程 创建 )，473 
Process management ( 进程 管理 )，503，506-509 
UNIX (UNIX ~ ), 503-506 
Windows 7 ( Windows 7 ~ ), 506-509 
Process synchronization ( 进程 同步 )，478-480 
Processor( 处理 器 ), 55-73 
Processor bandwidth ( 处 理 器 带宽 )，67 
Processor bus ( 处 理 机 总 线 )，572 
Processor consistency ( 处理 器 一 致 性 )，595-596 
Procesor cycle ( 处 理 器 周期 )，695 
Processor-level parallelism ( 处 理 器 级 并 行 )， 
69-73 
Producer-consumer problem ( 生产 者 一 消费 者 问 
题 )，474 
Program (程序 ),，1 
Program counter ( 程序 计数 器 )，56，694 
Program status word ( 程序 状态 字 )，350，459 
Programmable interconnection ( 可 编程 互联 资源 )， 
183 
Programmable Processing Engine ( 可 编程 处 理 引 
擎 )，579 
Programmable ROM ( 可 编程 ROM ), 182 
Programmed I/O ( 可 编程 TO ), 394 
PROM Jl Programmable ROM 
Protocol (协议 )，576 
Bus ( 总线 ~ )，188 
IP (IP ~ ), 576 
MESI (MESI ~ ), 601-603 
PCI Express ( PCI 快速 总 线 ~ ), 225-228 
Protocol processing engine ( 协议 处 理 引擎 )，579 
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Protocol stack, PCI Express ( PCI 快速 总 线 协议 栈 ), 
225-228 

Pseudoinstruction ( thd ), 522-524, 692, 718 

PSW Jl Program status word 

Pthreads ( UNIX 的 线程 标准 ), 505 

Public-key cryptography ( 公 钥 秘密 系统 )，585 

PVM Jil Parallel Virtual Machine 


Q 


Queue management ( 队列 管理 )，581 
Queuing unit ( 队列 单元 )，300 


R 


Race condition (竞争 条 件 )，473-478 

Radio frequency identification ( 射频 识别 )，31-33 

Radix( 进 制 )，671 

Radix number systems ( 进 制 计数 系统 )，671-673 

RAID JL Redundant Array of Inexpensive Disks 

RAM Jl Random Access Memory 

Random access memory ( 随机 访问 存储 器 )，73- 
85, 180-183 
DDR ( 双 倍数 据 率 随机 访问 存储 器 )，181 
dynamic RAM ( 遂 态 随机 访问 存储 器 )，181 
SDRAM ( 见 步 动态 随机 访问 存储 器 )，181 

Ranging ( WHE )，134 

RAW dependence ( 写 后 读 相关 )，297 

Read only memory ( 只 读 存储 器 )，182 

Read/Write pointer ( i / 写 指针 )，714 

Real mode ( 实 模式 )，352 

Recursion ( 递归 )，392 

Recursive procedure (递归 过 程 )，406 

Red book ( 红皮书 )，100 

Red Storm ( 红色 风暴 ; 一 台 计算 机 的 代号 )，626- 
631 

Red Storm vs. BlueGene/P ( 两 个 计算 机 型 号 的 对 
比 )，629-631 

Reduced instruction set computer ( 精简 指令 集 计 
FPL), 62 
design principles ( ~ 设计 原则 ), 63-65 
Versus CISC ( ~ 对 比 复杂 指令 计算 机 ) 

Redundant array of Inexpensive disks ( 廉价 磁盘 宛 
余 阵 列 )，94-97 

Reed-Solomon code ( Reed-Solomon 码 )，87 
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Refreshmemory ( 内 存 刷 新 )，181 

Register, ( 寄存 器 )，5，174，694 
PSW (程序 状态 字 ~ ), 350 

Register addressing ( 寄存 器 寻 址 )，372 

Register displacement ( 寄存 器 移 位 )，703 

Register indirect addressing ( 寄存 器 间接 寻 址 )， 
373-374，702 

Register renaming ( 寄存 器 重 命名 )，315-320 

Register with index addressing ( 带 索 引 的 寄存 器 寻 
址 )，703 

Register with index and displacement ( 带 索 引 的 寄 
存 器 移 位 )，704 

Registers (寄存 器 组 )，349-351 
flags (标志 ~ )，350 

Relative error ( 相对 误差 )，683 

Relative path (相对 路 径 )，494 

Release consistency ( 释放 一 致 性 )，597-598 

Relocation constant ( 重 定位 常量 )，541 

Relocation problem ( 重 定位 问题 )，539 

Reorder buffer,Core i7 ( Core i7 的 重新 排序 缓冲 
区 )，327 

Replicated worker model ( 多 完成 人 模型 )，644 

Reserved page ( 保留 页 )，490 

Resource layer ( 资源 层 )，653 

Retirement unit,Core i7 ( Core i7 的 回收 单元 )，328 

Reverse Polish notation ( 逆 波 兰 表达 式 )，376-379 

RFID chip ( 射频 识别 芯片 ) 

Right-justified alignment ( 右 对 齐 ), 387 

Ring network ( 环 型 网 络 )，569，620 

RISC Jl Reduced instruction set computer 

_ RISC design principles (RISC 设计 原则 ), 63-65 

RISC vs. CISC (RISC 45 CISC 相 比 较 )，62-63 

ROB Jl ReOrder Buffer 

ROM JL Read Only Memory 

Root directory ( 根 目录 ), 494 

Root hub ( 根 集线器 ), 229 

Rotational latency (旋转 延 时 ), 89 

Rounding (4A ), 683 

Route lookup (路 由 查找 )，581 

Router ( 路 由 器 )，575 


S 


Sandy bridge ( Intel 生产 的 一 款 处 理 器 )，323-329 
Saturated arithmetic ( 饱和 运算 )，559 
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Scalable ( 可 扩展 的 )，650 

Scalable design ( 可 扩展 设计 ), 589 

Scale,index,base,byte ( 索引 、 基 址 、 字 节 规 模 )， 
368，383 

Scheduler,Core i7 ( Core i7 的 调度 器 )，327 

Scheduling, multicomputer ( 多 计算 机 中 的 调度 ), 
639-640 

Scoreboard ( 记分 牌 )，316 

SCSI ‘i, Small Computer System Interface 

SCSI disk ( SCSI 磁盘 )，92 

SDRAM fl Synchronous DRAM 

Seastar (IBM 制造 的 一 种 网 络 处 理 器 )，627 

Second pass,assembler ( 两 次 扫描 汇编 器 ), 716 

Second-generation computers ( 第 二 代 计 算 机 ), 
19-21 

Secondary memory ( 辅助 存储 器 )，86-108 

Sector ( 扇 区 )，87 

Security descriptor ( 安全 描述 符 )，501 

Security ID (安全 标识 )，501 

Seek, disk ( 寻 道 )，89 

Segment ( Ët ), 450, 699 

8088 ( 8088 ~ ), 700 

Segment override ( R ), 715 

Segment register group ( 段 寄存 器 组 )，699 

Segmentation ( 分 段 )，449-455 
implementation ( ~ 实现 )，452-455 

Selfmodifying ( 自修 改 程序 )，374 

Semantics of memory ( 参见 memory semantics ), 
593-598 

Semaphore ( 信和 号 量 )，478-480 

Sequencer ( 定 序 器 )，253 

Sequential consistency ( 顺序 一 致 性 )，594-595 

Sequential flow of control ( 控制 的 顺序 流 )，405-406 

Serial ATA ( 串 行 ATA ), 92 

Server ( 服务 器 )，36 

Session, CD-ROM (CD-ROM 的 会 话 )，105 

Set-associative cache ( 组 相连 高 速 缓存 )，308-310 

Shard (碎片 )，632 

Shared library ( 共享 库 )，549 

Share memory, application-level ( 应 用 层 的 共享 
内 存 )，640-646 

Shell (外壳 )，485 

Shifter ( 移 位 器 )，163-164 

Shockley, William ( 人 名 ， 诺 贝尔 物理 学 奖 得 
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=), 19 

SIB Jil Scale, Index, Base 

SID Jil Security ID 

Sign extension ( 符号 扩展 )，250 

Signed magnitude ( 带 符号 数 )，675 

Significand ( 有 效 数 )，686 

‘SIMD Hl Single Instruction-stream Multiple Data- 
stream 

SIMM Ji Single Inline Memory Module 

Simon smartphone ( IBM 生产 的 智能 手机 型 号 )，27 

Simple COMA ( 简单 COMA )，615 

Simplex line ( 单 工 线路 )，129 

Simultaneous multithreading ( 并 发 多 线程 )，564 

Single inline memory module ( 单列 直 插 存储 器 模 
组 )，85 

Single instruction stream multiple data stream 
computer ( 单 指令 流 多 数据 流 计算 机 ), 70, 583 

Single large expensive disk ( 单个 昂贵 大 磁盘 )，94 

Single-chip multiprocessors ( 单 片 多 处 理 器 )，568-574 

Skew, bus (总 线 时 滞 ), 112 

Slave (从 设备 )，189 
bus (2k ~ ), 189 

SLED Jl Single Large Expensive Disk 

SM Jl Streaming multiprocessor 

Small computer system interface ( 小 型 计算 机 系统 
接口 )，92-94 

Small memory model ( 小 型 内 存 模型 )，720 

Small outline DIMM ( 小 型 DIMM )，85 

Smartphone ( 智能 手机 )，27 

SMP Ji, Symmetric Multiprocessor 

Snoop (监听 ), 202 

Snooping cache ( 监听 cache ), 599, 599-606 

Snoopy cache (监听 型 cache ), 599 

SO-DIMM Jit, Small outline DIMM 

SoC (片上 系统 )，208 

Socket ( 套 接 字 )，483 

Software ( 软件 )，8 

Software layer ( 软件 层 )，227 

Software metric ( 软件 标准 )，648 

Solid-ink printer ( 固体 喷 墨 打印 机 )，126 

Solid-state disk ( 固态 硬盘 )，97-99 

Source index ( 源 变 址 ), 698 

Source language ( 源 语言 )，517 

Source operand ( 源 操作 数 )，701 
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SPARC (SUN 公司 生产 的 CPU 型 号 )，14 

Spatial locality ( 空间 局 部 性 )，305 

Specialty printer ( 特殊 用 途 打 印 机 )，126-127 

Speculative executive ( 推测 执行 )，320-323，321 

Speculative load ( 预 取 )，429 

Speed vs. cost ( 运行 速度 与 开销 的 比较 ) 283-285 

Split cache (分离 式 高 速 缓存 )，84，305 

Splitter (分 离 器 )，131 

SR latch (SR 锁 存 器 )，169-170 

SRAM M Static RAM 

SSD 见 Solid-state disk 

SSE Jil Streaming SIMD Extensions 

Stack (#%), 258-260 
operand ( 操作 数 ~ ), 259 

Stack addressing ( 栈 寻 址 )，376-379 

Stack frame ( 栈 框架 )，698 

Stack pointer ( 栈 指针 SP )，698 

Stage, pipeline ( 流水 段 )，65 

Stale data ( 失效 数据 ), 599 

Stall ( 暂停 )，311 

Stalling ( 暂停 )，298 

Standard error ( 标准 错误 )，494 

Standard input ( 标准 输入 )，494 

Standard output (标准 输出 ), 494 

Star ( 星 形 )，620 

State ( 状态 )，244 
finite state machine ( 有 限 ~ 机 )，290 

Statement,assembly language ( 汇编 语言 声明 )， 
520-521 

Static branch prediction ( 静态 分 支 预测 )，315 

Static RAM (静态 RAM )，181 

Stibbitz,George( 人 名 ， 早 期 计算 机 工作 者 之 一 )， 
16 

Storage ( 磁盘 存储 器 )，73 

Store (参见 Memory )，73 

Store buffer,OMAP4430 ( OMAP4430 的 存储 器 组 
存 )，331 

Store-and-forward network ( 存储 转发 网 络 )，575 

Store-to-load forwarding ( 前 向 存 取 技 术 )，329 

Stream ( 流 )，484 

Streaming multiprocessor ( 流 式 多 处 理 器 )，582 

Streaming SIMD Extensions ( 流 式 SIMD 扩展 )，42 

Strict consistency (严格 一 致 性 )，594 

Striping ( 分 带 )，95 
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Strobe ( 选 通 ), 171 

Structured computer organization ( 结构 化 计算 机 组 
成 )，2-13 

Subroutine ( 子 程序 )，392, 710 

Sun Fire E25K ( Sun 公司 生产 的 计算 机 型 号 )，610- 
614 

Sun SPARC ( SUN 公司 生产 的 SPARC 型 号 计算 
机 )，14 

Supercomputer ( 超级 计算 机 )，21 

Supercomputers ( 超级 计算 机 群 )，39 

Superscalar architecture ( 超标 量 体 系 结构 ), 67-69, 
68-69 

Superuser ( 超级 用 户 )，496 

Supervisor call ( 管理 程序 调用 )，11 

Switching algebra ( 开关 代数 )，150 

Switching network,multistage( 多 级 交换 网 络 )，604- 
606 - 

Symbol table ( 符号 表 ), 530, 535-536, 716 

Symbolic name ( 符号 名 字 ), 692 

Symmetric key cryptography ( 对 称 密 钥 系 统 )，585 

Symmetric multiprocessor ( 对 称 多 处 理 器 系统 )， 
587, 598-606 

Synchronous bus ( 同步 总 线 )，191-194 

Synchronous DRAM ( 同步 动态 RAM )，181 

Synchronous memory interface ( 同步 内 存 接口 )，208 

Synchronous message passing ( 同步 消息 传递 )，636 

System bus ( 系统 总 线 )，188 

System call ( 系统 调用 ), 11, 437, 712-715 

System-on-a-chip ( 片上 系统 )，208 

Systems programmer ( 系统 程序 员 )，7 

T 

Target ( 接受 者 ), 218 

Target language ( 目标 语言 )，517 

Target library ( 目标 库 )，549 

Task bag ( 任务 包 )，644 

TAT-12/13 cable ( 一 种 光纤 传输 的 电话 线 )，30 

Taxonomy of parallel computers ( 并 行 计算 机 分 
类 )，591-593 

TCP J Transmission Control Protocol 

TCP header (TCP 4), 576 

Tegra, Nvidia ( Nvidia Tegra 片上 系统 )，46 

Telco ( 电话 公司 )，129 
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Telecommunications equipment ( 电信 设备 )，127-135 

Telephone company (电话 公司 )，129 

Template ( 模板 )，643 

Temporal locality ( 时 间 局 部 性 )，306 

Terminal ( 中 断 )，113-118 

Texas Instrument OMAP4430 

Text section ( 正文 段 )，717 

TFT display (TFT 显示 器 )，117 

Thermal printer (热量 打印 机 )，127 

Thermal throttling ( 热量 玖 导 )，206 

Thin film transistor ( 薄膜 式 晶体 管 )，117 

Third-generation computers ( 第 三 代 计 算 机 )，21-23 

Thrashing (过载 )，448 

Thread ( 线程 )，505 

Three-bus architecture ( 三 总 线 体系 结构 ), 287 

Threshold sharing (门限 共享 )，567 

TI OMAP4430 Ji OMAP4430 

Tightly coupled system (AAS AB), 73, 554 

Timesharing system ( 分 时 系统 )，11 

Tiny memory model ( 微型 内 存 模型 )，720 

TLB Jl Translation Lookaside Buffer 

TLB miss ( TLB 缺失 )，461 

TN Jil Twisted Nematic 

Token ($H), 572 

Topology (拓扑 )，618 

Touch screen ( 触摸 屏 )，113-115 

Towers of Hanoi ( 汉 诺 塔 )，417-420 
Core i7 ( Core i7 汇编 语言 实现 ~ ) 418-419 
ARM ( ARM 汇编 语言 实现 ~ ) 418-420 

Trace ( 跟踪 )，693，721-725 

Transaction layer, PCI Express ( 事务 层 ，PCI Express ), 
227 

Transistor, invention ( 晶体 管 的 发 明 )，19 

Transistor-transistor logic ( 晶体 管 - 晶体 管 逻 辑 )，150 

Transition (有 限 状 态 机 的 变迁 )，290 

Translation ( 翻译 )，2 

Translation lookaside buffer ( 旁 路 转换 缓冲 器 )， 
331，461 

Translator ( 翻译 器 )，517 

Transmission control protocol ( 传输 控制 协议 )，576 

Transparent interrupt ( 透明 中 断 )，415 

Trap ( PBF), 413, 706 

Trap handler ( 陷阱 处 理 )，413 

Tree ( 树 型 )，620 
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Tri-state device ( 三 态 器 件 )，177 

TriMedia processor (飞利浦 公司 推出 的 一 种 处 理 
器 )，557-561 

Triple indirect block ( 三 次 间接 块 )，498 

True dependence ( 真相 关 )，297 

Truth table ( 真 值 表 )，150 

TTL Jl Transistor-transistor Logic 

Tuple (元 组 ), 642 

Tuple space ( 元 组 空间 ), 642 

Twin page ( ZÆ TT), 642 

Twisted nematic display (扭曲 向 列 型 显示 器 )，116 

Two's complement number ( 补 码 )，675 

Two-pass assembler ( 两 趟 编译 器 )，529-536 

Two-pass translator ( 两 趟 翻译 器 )，529 

TX-0 (第 一 台 晶 体 管 计算 机 )，19 

TX-2 (一 种 晶体 管 计算 机 )，19 


U 


U pipeline ( U 流水 线 )，68 

UART Jl Universal Asynchronous Receiver Transmitter 

Ubiquitous computing ( 普 适 计算 )，28 

UCS Jil Universal Character Set 

UCS transformation format ( UCS 转换 格式 )，141 

UHCI = Jil, Universal Host Controller Interface 

UMA Jl Uniform Memory Access Computer 

Unicode ( 一 种 字符 编码 标准 )，138-141 

Unified cache (统一 的 高 速 缓存 )，84 

Uniform memory access computer ( 一 致 性 内 存 访 
问 计算 机 )，592 

Universal asynchronous receiver transmitter ( 通用 
异步 收发 器 )，232 

Universal character set ( 通用 字符 集 )，141 

Universal host controller interface ( 通用 主机 控制 
器 接口 )，231 

Universal serial bus ( 通用 串 行 总 线 )，228-232 
USB 2.0〈 通 用 串 行 总 线 标准 2.0 版 )，231 
USB 3.0(〈 通 用 串 行 总 线 标准 3.0 版 )，231 

Universal synchronous asynchronous receiver 
transmitter ( 通用 同步 异步 收发 器 )，232 

UNIX (UNIX 操作 系统 )，482-485 
virtual memory ( ~ 虚拟 内 存 )，488-489 

UNIX IO (文件 输入 /输出 )，492-498 

UNIX process management ( UNIX 进程 管理 )，503-506 

Update strategy,cache ( 缓存 更 新 策略 )，600 


USART (通用 同步 异步 收发 器 ) 

USB 2.0 Jil, Universal Serial Bus 2.0, 231 
USB 3.0 见 Universal Serial Bus 3.0, 231 
User mode ( 用 户 模式 )，347 

UTF-8 (一 种 字符 编码 标准 )，142 


V 


V pipeline ( V 流水 线 )，68 
Vacuum tube computers ( 电子 管 计算 机 )，16-19 
Vampire tap ( 吸血 鬼 接 头 )，575 
VAX (DEC 公司 生产 的 计算 机 型 号 )，14，61 
VCI Jl. Virtual Component Interconnect 
Vector processor ( 向 量 处 理 器 )，71 
Vector register ( 向 量 寄存 器 )，71 
Very large scale integration ( 超大 规模 集成 )，23 
Very long instruction word ( 超 长 指令 字 )，555 
VFP (ARM 中 用 于 浮 点 运算 的 计算 引擎 )，331 
Video RAM (视频 RAM )，117-118 
Virtual 8086 mode ( 虚拟 8086 模式 )，352 
Virtual address space ( 虚拟 地 址 空间 ), 440. 
Virtual circuit ( 虚 电路 ), 227 
Virtual component interconnect ( 虚拟 组 件 互 连 )，574 
Virtual cut through network ( 虚拟 直通 网 络 )，625 
Virtual machine ( 虚拟 机 )，3 ，463-464 
Virtual memory ( 虚拟 内 存 )，438-462 
ARM (ARM ~ )，460-462 
compared to caching ( ~ 与 高 速 缓存 相 比 )，462 
Core i7 (Æ i7 ~ )，455-460 
UNIX ( UNIX ~ ), 488-489 
Windows 7 ( Windows 7 ~ ), 490-492 
Virtual organization ( 虚拟 组 织 )，652 
Virtual register ( 虚拟 寄存 器 )，258 
Virtual topology ( 虚拟 拓扑 )，638 
Virtual-Machine Control Structure ( 虚拟 机 控制 结 
构 )，464 
Virtualization ( 虚拟 化 )，464 
hardware ( 硬件 ~ ), 463-464 
Virtuous circle ( 良性 循环 )，29 
VLIW Jl Very Long Instruction Word 
VLSI Jil Very Large Scale Integration 
VMCS "l Virtual-Machine Control Structure 
Volume table of contents ( 目录 卷 表 ), 105 
Von Neumann ( 人 名 ， 现 代 计 算 机 体系 结构 的 确 
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LH ), 18-19 
Von Neumann machine ( 73 - KHL), 18-19 
VTOC Jil Volume table of contents 


W 


Wait state ( 等 待 状态 )，192 

WAN Jl Wide-Area Network 

WAR dependence ( WAR 相关 )，318 

Watson, Thomas ( 人 名 ，IBM 前 总 裁 )，19 

WAW dependence ( WAW 相关 )，318 

Wax printer ( 石蜡 打印 机 )，127 

Weak consistency ( 弱 一 致 性 )，596-597 

Wear leveling ( 磨损 均衡 )，99 

Weiser，Mark ( 人 名 ， 普 适 计算 模型 设计 者 )，28 

Weizac ( 早期 由 以 色 列 研制 的 计算 机 )，17 

Whirlwind I (MIT 设计 的 计算 机 )，14 

Wide-area network ( 广域网 )，575 

Wiimote controller ( 遥控 器 )，120-122 

Wilkes, Maurice ( 人 名 ， 解 释 执行 的 提出 者 )，60 

Win32 API ( Win32 应 用 程序 接口 )，487 

Winchester disk ( 温 彻 斯 特 磁盘 )，88 

Windows 7 ( 微软 公司 的 操作 系统 )，485-488 

Windows 7 I/O ( Windows 7 输入 输出 )，498-503 

Windows 7 process management ( Windows 7 进程 
管理 )，506-509 

Windows 7 virtual memory( Windows 7 虚拟 内 存 ), 
490-492 

Windows drivers ( Windows 驱动 程序 )，487 

Windows new technology ( Windows NT 的 全 名 )，486 

Windows NT 见 Windows New Technology 

Wired-OR (Ek ), 189 

Word (F), 75 
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Word instruction (484), 701 

Word register ( 字 寄 存 器 )，701 

Working directory (工作 目录 )，494 

Working-set model ( 工作 集 模 型 )，443-446 

Wozniak，Setve ( 人 名 ，Apple 公司 的 创建 者 之 
一 )，24 

Write allocation ( 写 分 配 )，310 

Write back cache ( 写 回 高 速 缓存 )，310 

Write deferred cache ( 拖 后 写 高 速 缓存 )，310 

Write through cache ( 写 直达 高 速 缓存 )，310，599 

Write-allocate policy ( 写 分 配 策 略 )，600 

Write-back protocol ( 写 回 协议 )，601 

Write-once protocol ( 写 一 次 协议 )，601 


X 


X Windows ( UNIX 下 的 窗口 系统 )，485 

x86 ( 一 种 处 理 器 体系 结构 )，25，39-45，347 
x86 architecture ( x86 体系 结构 )，39 

XC2064 (第 一 块 FPGA 芯片 )，14 

Xeon ( 至 强 处 理 器 ), 43 


y 


Y2K problem ( 千年 虫 问题 )，39，359 
Yellow book (黄皮书 )，101 


Z 


Z1 (第 一 台 继 电器 计算 机 )，14 

Zeronth-generation computers ( 第 0 代 计 算 机 )，13- 
16 

Zilog z8000 ( Zilog CPU 的 型 号 )，61 

Zuse, Konrad ( 人 名 ， 计 算 机 界 的 先驱 )，15-16 

ZuseZl 见 Z1，14 


